Spark 读取 Hbase 优化 --手动划分 region 提高并行数-阿里云开发者社区

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

2018-12-15 1637

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

一. Hbase 的 region

我们先简单介绍下 Hbase 的架构和 region ：

从物理集群的角度看，Hbase 集群中，由一个 Hmaster 管理多个 HRegionServer，其中每个 HRegionServer 都对应一台物理机器，一台 HRegionServer 服务器上又可以有多个 Hregion（以下简称 region）。要读取一个数据的时候，首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候，读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少，而 spark 的 cpu core 又比较多的时候，就会出现无法充分利用 spark 集群所有 cpu core 的情况。

我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。

Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。
Region由一个或者多个Store组成，每个store保存一个columns family，每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中， StoreFile存储在HDFS上。
region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上，但并不是存储的最小单元。

二. Spark 读取 Hbase 优化及 region 手动拆分

在用spark的时候，spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低，浪费性能。但如果region数目太多就会造成读写性能下降，也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。

自0.94.0版本以来，split还有三种策略可以选择，不过一般使用默认的分区策略就可以满足需求，我们要修改的是会触发 region 分区的存储容量大小。

而在0.94.0版本中，默认的 region 大小为10G，就是说当存储的数据达到 10 G 的时候，就会触发 region 分区操作。有时候这个值可能太大，这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中，增加如下配置：

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的触发 region 分区的大小，要注意这个值是以 bit 为单位的，这里是将region文件的大小改为512m。

修改之后我们就可以手动 split region了，手动分区会自动根据这个新的配置值大小，将 region 已经存储起来的数据进行再次进行拆分。

我们可以在 hbase shell 中使用 split 来进行操作，有以下几种方式可以进行手动拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说，就是要拆分的表名，namespace可以在hbase的web界面中查看，一般会是default。

使用命令之后稍等一会，hbase会根据新的region文件大小去split，最终结果可以在web-ui的"table Details"一栏，点击具体table查看。

以上~

相关实践学习

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl