备案控制台

开发者社区

开发者社区数据库文章正文

Hbase 之 HBase 的整体架构

2017-11-12 879

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介：

HBase 系统架构图

组成部件说明
　　Client：
使用HBase RPC机制与HMaster和HRegionServer进行通信
Client与HMaster进行通信进行管理类操作
Client与HRegionServer进行数据读写类操作
　　Zookeeper：
Zookeeper Quorum存储-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注册到Zookeeper中，HMaster随时感知各个HRegionServer的健康状况
Zookeeper避免HMaster单点问题
　　HMaster：
HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master在运行
主要负责Table和Region的管理工作：
1 管理用户对表的增删改查操作
2 管理HRegionServer的负载均衡，调整Region分布
3 Region Split后，负责新Region的分布
4 在HRegionServer停机后，负责失效HRegionServer上Region迁移
　　HRegionServer：
HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据

　　

　　HRegionServer管理一些列HRegion对象；
每个HRegion对应Table中一个Region，HRegion由多个HStore组成；
每个HStore对应Table中一个Column Family的存储；
Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效

　　HStore：
HBase存储的核心。由MemStore和StoreFile组成。
MemStore是Sorted Memory Buffer。用户写入数据的流程：

　　

　　Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。
由此过程可知，HBase只是增加数据，有所得更新和删除操作，都是在Compact阶段做的，所以，用户写操作只需要进入到内存即可立即返回，从而保证I/O高性能。

　　HLog
引入HLog原因：
在分布式系统环境中，无法避免系统出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会丢失，引入HLog就是防止这种情况
工作机制：
每个HRegionServer中都会有一个HLog对象，HLog是一个实现Write Ahead Log的类，每次用户操作写入Memstore的同时，也会写一份数据到HLog文件，HLog文件定期会滚动出新，并删除旧的文件(已持久化到StoreFile中的数据)。当HRegionServer意外终止后，HMaster会通过Zookeeper感知，HMaster首先处理遗留的HLog文件，将不同region的log数据拆分，分别放到相应region目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

　　HBase存储格式
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，格式主要有两种：
1 HFile HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile
2 HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence File

　　HFile

　　

　　图片解释：
HFile文件不定长，长度固定的块只有两个：Trailer和FileInfo
Trailer中指针指向其他数据块的起始点
File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等
Data Index和Meta Index块记录了每个Data块和Meta块的起始点
Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制
每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询
每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏

　　HFile里面的每个KeyValue对就是一个简单的byte数组。这个byte数组里面包含了很多项，并且有固定的结构。

　　

　　KeyLength和ValueLength：两个固定的长度，分别代表Key和Value的长度
Key部分：Row Length是固定长度的数值，表示RowKey的长度，Row 就是RowKey
Column Family Length是固定长度的数值，表示Family的长度
接着就是Column Family，再接着是Qualifier，然后是两个固定长度的数值，表示Time Stamp和Key Type（Put/Delete）
Value部分没有这么复杂的结构，就是纯粹的二进制数据

　　HLog File

　　

　　HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是“写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。
HLog Sequece File的Value是HBase的KeyValue对象，即对应HFile中的KeyValue 。

文章可以转载，必须以链接形式标明出处。

本文转自张冲andy 博客园博客，原文链接： http://www.cnblogs.com/andy6/p/7452381.html ，如需转载请自行联系原作者

文章标签：

云数据库HBase版

微服务引擎

分布式数据库

Hbase

存储

分布式计算

Hadoop

负载均衡

相关实践学习

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

技术小美

目录

相关文章

唐家四少官微

|

6月前

|

存储分布式计算 NoSQL

HBase技术

唐家四少官微

39 0 0

夜孤城

|

存储缓存分布式计算

第6章 HBase基础

第6章 HBase基础

夜孤城

406 0 0

游客wkxim4agoo6le

|

存储负载均衡分布式数据库

HBase数据存储和架构

笔记

游客wkxim4agoo6le

135 0 0

阿丸

|

存储 SQL 缓存

全面认识HBase架构（建议收藏）

全面认识HBase架构（建议收藏）

阿丸

912 0 1

全面认识HBase架构（建议收藏）

学堂小助手

|

存储监控负载均衡

HBase 架构 | 学习笔记

快速学习 HBase 架构。

学堂小助手

103 0 0

HBase 架构 | 学习笔记

hbase小能手

|

存储大数据 Java

HBase中Coprocessor的介绍以及实际业务场景中的使用

本文主要带大家了解Coprocessor的原理。首先从四个角度出发讲解了什么是Coprocessor，Coprocessor适合哪些使用场景。并详细分析了两种类型Coprocessor，分别介绍了Observer和Endpoint的实现及其区别。

hbase小能手

3006 0 1

犀利风火轮

|

存储监控算法

HBase行键设计

HBase行键设计

犀利风火轮

2202 0 0

友德

|

存储缓存 Java

HBase系统架构

友德

9141 0 1

调皮仔3683

|

存储大数据分布式数据库

深入理解HBase的系统架构

物理上来说，HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是：Region server，HBase HMaster，ZooKeeper。

调皮仔3683

4291 0 0

技术小美

|

存储分布式计算 Hadoop

Hbase 之 HBase 的整体架构

技术小美

756 0 0

热门文章

最新文章

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

New Product Launch: Alibaba Cloud ElasticSearch

OSS回源的几种方式和应用场景

第176天：页面优化

java多线程编程

配置GoldenGate源端Manager参数

企业逐渐采用移动办公、物联网及软件定义网络策略

《OpenCV图像处理》——2.8　小结

Docker误区+技巧+转换关系

2014秋C++第19周补充代码哈希法的存储与查找

mysql 处理科学计数法的字段

❤Nodejs 第八章（操作本地数据库优化查询为分页查询方式）

基于CH32V103的多功能推杆设计

分布式事务：构建可靠分布式系统的基石

Raft算法：分布式一致性领域的璀璨明珠

Paxos算法：分布式一致性的基石

云效产品使用报错问题之gitlab库导入到云效失败如何解决

软件体系结构 - 复杂指令集架构 (CISC)

云效产品使用报错问题之流水线发布uniapp的应用失败如何解决

云效产品使用报错问题之不知道云效api需要什么权限如何解决

相关课程

更多

分布式数据库 HBase 快速入门

HBase入门与实战

HBase入门教程

高可用应用架构

MySQL企业常见架构与调优经验分享

消息队列RocketMQ 5.0 云原生架构升级课程

相关电子书

更多

HBase应用与发展之HBase应用与高可用实践

HBase中Coprocessor的介绍以及实际业务场景中的使用

HBase在360的实践及改进

相关实验场景

更多

每个IT人都想学的“Web应用上云经典架构”实战

MySQL引擎及架构优化

基于数据湖架构的网站访问行为分析

5分钟上手Flink MySQL连接器

高可用应用架构

使用EDA架构部署在线外卖订单系统

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）