问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

hbase的特点,以及和其他nosql数据库的异同

发布网友 发布时间:2022-04-25 01:45

我来回答

2个回答

懂视网 时间:2022-04-08 03:37

基于上篇Hadoop2.6集群部署博文:http://lizhenliang.blog.51cto.com/7876557/1661354

接下来部署HBase1.0分布式NoSQL数据库,HBase中涉及到HMaster和HRegionServer两个概念。

(注:以下概念来着百度百科)

HMaster主要负责Table和Region管理工作:

  1. 管理用户对Table的增、删、改、查操作

  2. 管理HRegionServer的负载均衡,调整Region分布

  3. 在Region Split后,负责新Region的分配

  4. 在HRegionServer停机后,负责失效HRegionServer 上的Regions迁移

HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据。

HBase工作原理:

  HRegionServer内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region,HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储,可以看出每个Column Family其实就是一个集中的存储单元,因此最好将具备共同IO特性的column放在一个ColumnFamily中,这样最高效。

  HStore存储是HBase存储的核心了,其中由两部分组成,一部分是MemStore,一部分是StoreFiles。MemStore是SortedMemory Buffer,用户写入的数据首先会放入MemStore,当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile),当StoreFile文件数量增长到一定阈值,会触发Compact合并操作,将多个StoreFiles合并成一个StoreFile,合并过程中会进行版本合并和数据删除,因此可以看出HBase其实只有增加数据,所有的更新和删除操作都是在后续的compact过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了HBase I/O的高性能。当StoreFiles Compact后,会逐步形成越来越大的StoreFile,当单个StoreFile大小超过一定阈值后,会触发Split操作,同时把当前Region Split成2个Region,父Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上,使得原先1个Region的压力得以分流到2个Region上。

  在理解了上述HStore的基本原理后,还必须了解一下HLog的功能,因为上述的HStore在系统正常工作的前提下是没有问题的,但是在分布式系统环境中,无法避免系统出错或者宕机,因此一旦HRegionServer意外退出,MemStore中的内存数据将会丢失,这就需要引入HLog了。每个HRegionServer中都有一个HLog对象,HLog是一个实现WriteAhead Log的类,在每次用户操作写入MemStore的同时,也会写一份数据到HLog文件中,HLog文件定期会滚动出新的,并删除旧的文件(已持久化到StoreFile中的数据)。当HRegionServer意外终止后,HMaster会通过Zookeeper感知到,HMaster首先会处理遗留的 HLog文件,将其中不同Region的Log数据进行拆分,分别放到相应region的目录下,然后再将失效的region重新分配,领取 到这些region的HRegionServer在Load Region的过程中,会发现有历史HLog需要处理,因此会Replay HLog中的数据到MemStore中,然后flush到StoreFiles,完成数据恢复。

HBase高可用实现方式:

  HBase同样分为Active和Standby,把数据存储在Zookeeper,可以启动两个或多个HMaster服务进程,第一个启动的做为HBase活动节点,其余的作为备用节点。如果一台故障,Zookeeper会选择出备用节点成为活动节点,让他接管故障的活动节点任务,保证总有一个Master运行。

二、HBase安装与配置(每台都要配置)

  1.安装配置

  # tar zxvf hbase-1.0.1.1-bin.tar.gz
  # mv hbase-1.0.1.1 /opt
  # vi hbase-env.sh
  export JAVA_HOME=/usr/local/jdk1.7
  export HBASE_MANAGES_ZK=false     #关闭通过内置Zookeeper管理HBase
  # vi hbase-site.xml
  <configuration>
       <!--HBase数据目录位置-->
   <property>
       <name>hbase.rootdir</name>
       <value>hdfs://hcluster/hbase</value>
   </property>
       <!--启用分布式集群-->
   <property>
       <name>hbase.cluster.distributed</name>
       <value>true</value>
   </property>
       <!--默认HMaster HTTP访问端口-->
   <property>
       <name>hbase.master.info.port</name>
       <value>16010</value>
    </property>
       <!--默认HRegionServer HTTP访问端口-->
    <property>
       <name>hbase.regionserver.info.port</name>
       <value>16030</value>
    </property>
       <!--不使用默认内置的,配置独立的ZK集群地址-->
   <property>
       <name>hbase.zookeeper.quorum</name>
       <value>HSlave0,HSlave1,HSlave2</value>
   </property>
  </configuration>
  # vi regionservers    
  HSlave0
  HSlave1
  HSlave2

  2. 配置系统变量

  # vi /etc/profile
  HBASE_HOME=/opt/hbase-1.0.1.1
  PATH=$PATH:$HBASE_HOME/bin
  export HBASE_HOME PATH
  # source /etc/profile

  3. 启动HBase

  分别在HMaster0和HMaster1启动hmaster:

  # start-hbase.sh

  分别在 HSlave0/1/2启动HRegionServer:

  # hbase-daemon.sh start regionserver

  4. 检查是否启动成功
  在主备节点查看有HMaster进程说明成功:

  [root@HMaster0 ~]# jps
  2615 DFSZKFailoverController
  30027 ResourceManager
  29656 NameNode
  2841 HMaster
  8448 Jps

  在RegionServer节点查看有HRegionServer进程说明成功:

  [root@HSlave0 ~]# jps
  11391 NodeManager
  11213 DataNode
  11298 JournalNode
  10934 QuorumPeerMain
  12571 HRegionServer
  7005 Jps

通过访问WEB页面查看:

技术分享

  5. hbase shell常用操作命令

  根据下面tb1表的结构来演示hbase增删改查用法:

nameinfoaddress
sexage
zhangsan
22manbeijing
lisi23woman  shanghai 

  # hbase shell  #进入字符页面

  5.1 创建表tb1,并有两个列族name、info和address,info列族下有sex和age列

  hbase(main):024:0> create ‘tb1‘,‘name‘,‘info‘,‘address‘

  5.2 查看表结构

  hbase(main):025:0> describe ‘tb1‘

  5.3 列出所有表

  hbase(main):025:0> list

  5.4 插入几条记录

  hbase(main):028:0> put ‘tb1‘,‘zhangsan‘,‘info:sex‘,‘22‘
  hbase(main):039:0> put ‘tb1‘,‘zhangsan‘,‘info:age‘,‘man‘
  hbase(main):031:0> put ‘tb1‘,‘zhangsan‘,‘address‘,‘beijing‘
  hbase(main):046:0> put ‘tb1‘,‘lisi‘,‘info:age‘,‘woman‘
  hbase(main):047:0> put ‘tb1‘,‘lisi‘,‘info:sex‘,‘23‘
  hbase(main):048:0> put ‘tb1‘,‘lisi‘,‘address‘,‘shanghai‘

  5.5 查看所有记录(全表扫描)

 hbase(main):040:0> scan ‘tb1‘
 ROW              COLUMN+CELL                                                       
 zhangsan                column=address:,timestamp=1435129009088,value=beijing                                              
 zhangsan        column=info:age,timestamp=1435129054098, value=man                                            
 zhangsan        column=info:sex,timestamp=1435128714392, value=22

  说明:

  ROW:行,用来检索记录的主键。

  COLUMN family:列族,是表的一部分,必须在创建表时定义,可以看到列名是以列族作为前缀,一个列族可以有多个列(column)。

  CELL:存储单位,存储实际数据,也就是所看到的value,cell中没有数据类型,全部是字节码形式存储。

  timestamp:时间戳,hbase写时自动赋值,为当前系统时间,精确到毫秒。如果每个cell保存同一份数据多个版本时,可通过时间戳来索引版本。

  5.6 统计表中记录总数

  hbase(main):050:0> count ‘tb1‘
  2 row(s) in 0.0190 seconds
 
  => 2

  5.7 查看表中某条记录

  hbase(main):054:0> get ‘tb1‘,‘zhangsan‘
  hbase(main):054:0> get ‘tb1‘,‘zhangsan‘
  COLUMN                  CELL                                                           
   address:               timestamp=1435129096397,value=beijing                            
   info:age               timestamp=1435129054098,value=man                                
   info:sex               timestamp=1435128714392,value=22

  5.8 查看表中某行某列族中的所有数据

  hbase(main):055:0> get ‘tb1‘,‘zhangsan‘,‘info‘
  COLUMN                  CELL                                                             
   info:age               timestamp=1435129054098,value=man                                
   info:sex               timestamp=1435128714392,value=22

  5.9 更新一条记录(覆盖)

  hbase(main):063:0> put ‘tb1‘,‘zhangsan‘,‘info:sex‘,‘23‘
  0 row(s) in 0.0080 seconds

  6.0 给lisi增加一个comment字段

  hbase(main):070:0> incr ‘tb1‘,‘lisi‘,‘info:comment‘

  6.1 删除某行某列族数据

  hbase(main):065:0> delete ‘tb1‘,‘zhangsan‘,‘info:sex‘

  6.2 删除某行所有记录

  hbase(main):067:0> deleteall ‘tb1‘,‘zhangsan‘

  6.3 删除一个表

  hbase(main):072:0> disable ‘tb1‘  #先禁用
  hbase(main):073:0> drop ‘tb1‘   #再删除


本文出自 ““企鹅”那点事儿” 博客,请务必保留此出处http://lizhenliang.blog.51cto.com/7876557/1665130

HBase1.0分布式NoSQL数据库部署及使用

标签:hadoop+hbase hbase1.0安装 hbase shell

热心网友 时间:2022-04-08 00:45

NoSQL太火,冒出太多产品了,保守估计也成百上千了。

互联网公司常用的基本集中在以下几种,每种只举一个比较常见或者应用比较成功的例子吧。
1. In-Memory KV Store : Redis
in memory key-value store,同时提供了更加丰富的数据结构和运算的能力,成功用法是替代memcached,通过checkpoint和commit log提供了快速的宕机恢复,同时支持replication提供读可扩展和高可用。

2. Disk-Based KV Store: Leveldb
真正基于磁盘的key-value storage, 模型单一简单,数据量不受限于内存大小,数据落盘高可靠,Google的几位大神出品的精品,LSM模型天然写优化,顺序写盘的方式对于新硬件ssd再适合不过了,不足是仅提供了一个库,需要自己封装server端。

3. Document Store: Mongodb
分布式nosql,具备了区别mysql的最大亮点:可扩展性。mongodb 最新引人的莫过于提供了sql接口,是目前nosql里最像mysql的,只是没有ACID的特性,发展很快,支持了索引等特性,上手容易,对于数据量远超内存*的场景来说,还需要慎重。

4. Column Table Store: HBase
这个富二代似乎不用赘述了,最大的优势是开源,对于普通的scan和基于行的get等基本查询,性能完全不是问题,只是只提供裸的api,易用性上是短板,可扩展性方面是最强的,其次坐上了Hadoop的快车,社区发展很快,各种基于其上的开源产品不少,来解决诸如join、聚集运算等复杂查询。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
挖矿笔记本电脑一般什么配置 ...全五分截图就可以返现两元,可是我截图了发了好评,他们就问我支付宝... 桂林数之城澜庭值得买吗? 华联都市澜庭可以买吗 云荟澜庭可以买吗 海和澜庭值得买吗 澜庭雅致能买吗 仿"瞧"写四个与"看"有关的词 用目旁表示眼的器官的字有那些 用瞅,瞧,盯,瞪,眺,瞥填空。你不要一直怎么着我,我又没做错事 在HBase限制SQL命令问题,怎么解决 hive sql怎么查询hbase hbase可以执行标准sql吗 我拿到hbase的rdd了,应该怎么转为DataFrame,以便我用sql查询 hbase sql 查询当前库有多表 怎么将hbase进行sql化查询 现在在哪里可以免费看漫画 下载什么软件可以免费看付费漫画 有没有什么漫画软件可以看到腾讯漫画里要钱的软件 去哪能看腾讯漫画的花钱看的漫画 有什么看漫画的软件? 求推荐几个漫画软件(冲完vip所有漫画都可以看的) 请问一下,在哪个软件上可以看各种付费的漫画(要免费的哦!) 的玻璃钢具有哪些特点 网上银行转帐的截图能不能作假,而且我还收到短信,建行到工行的转账。 石英玻璃片的物理性能 银行卡转账接受短信图片 钢化玻璃有什么性能 平安银行工资到账短信是 怎样的? 玻璃的特性 如何获取HBase数据库中“最后一条”数据 HBase数据库是通过(oracle jdbc连接)啥被应用程序连接的?通过(关系... 怎么样带孩子 如何戴隐形眼镜?怎么样带 作为老员工的你,是怎么样带新人的? 自己一个人怎样带娃 安全套怎样带 怎么样带美瞳 怎么样快速带手镯 手绘和漫画有什么区别?学手绘好还是漫画好? 新导游怎么样才能带好团队? 手绘漫画需要什么工具? 怎么样才能带好兵? 怎样带好一个团队 怎样能带好一个团队 手绘漫画需要的东西(所有的) 怎么画好手绘漫画? 漫画与手绘漫画是一个意思还是有区别的? 喜欢拍夜景、星空和风景,能不能推荐相机? 拍星空哪种照相机或摄影机最合适?