HBase+Spark社区 + 关注
手机版

HBase技术与应用实践 | HBase在爱奇艺的应用实践

  1. 云栖社区>
  2. HBase+Spark社区>
  3. 博客>
  4. 正文

HBase技术与应用实践 | HBase在爱奇艺的应用实践

hbase小能手 发布时间:2018-11-15 13:50:08 浏览611 评论0

摘要: 本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾郑浩南 爱奇艺 资深研发工程师,专注于大数据领域,负责Hadoop服务的运维研究以及DevOps平台开发。 分享主题:HBase在爱奇艺的应用实践 内容概要:随着大数据存储计算对延时吞吐要求越来越高,需求日益复杂化,HBase在爱奇艺中被广泛应用和实践以应对多样化的业务场景。

本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾郑浩南 爱奇艺 资深研发工程师,专注于大数据领域,负责Hadoop服务的运维研究以及DevOps平台开发。
分享主题:HBase在爱奇艺的应用实践

内容概要:随着大数据存储计算对延时吞吐要求越来越高,需求日益复杂化,HBase在爱奇艺中被广泛应用和实践以应对多样化的业务场景。本次演讲将介绍HBase在爱奇艺的部署模式和使用场景,以及在爱奇艺私有云环境下的运维策略。

下载链接:http://hbase.group/slides/168


1.使用现状

  • 概况

c2366efb4f0db56407f70f4805530eebf93397a7
    • HBase版本

      • 1.2.0-CDH5.14.4-qiyi-1

    • 规模

      • 物理机数量6000+,最大集群1500节点

      • 数据总量约3PB(单备份),大表>100TB

      • 离线QPS 50 Mil+,线上QPS 3 Mil+

    • 服务使用架构

      • 私有云环境

      • 大数据平台化服务

      • 大数据产品栈

  • 数据库@iQIYI 产品定位

b46b26e61f85c966cfe878767037b4053367d6e2
    • 按访问模式:NoSQL -> SQL

      • schema

      • 访问接口

      • ACID

    • 按应用场景:OLTP -> HTAP -> OLAP

      • 目的:交易处理 vs 数据分析

      • 延时:ms vs s/m

    • 按分布式系统特点

      • 可扩展性 CAP

      • QPS量级:10K vs 10M

      • 数据量:GB vs TB/PB

  • HBase@iQIYI 产品定位

4ff0c13b4e11087820f2e9aff7ba6719affefff1
    • 大数据产品应用场景

      • QPS量级 100K以上

      • 数据量级 TB ~PB

      • 需要计算资源,计算本地性

    • 选择HBase的理由

      • 大数据场景下的随机访问

      • 稀疏动态表,支持百万列

      • 适应各计算框架

      • 实时跨集群同步

      • 稳定易扩展,现有集群规模大,能支持更大量级

  • 应用场景

1f045f80d8a1f6c7b67f04413f3b9af801971acf


2.架构实践

  • 架构概览

73c6aa82a5d73c36a2d40821595331398d51fa70

    • 3-4个主力DC

      • 业务分流

      • 运营商

      • HA

    • HBase相关集群分类

      • 公共集群

      • Kylin HBase集群

      • HBase专用集群

      • 业务独立集群

  • 公共集群

00c0f2fdbdcb3d9f2a43ac4e6dde730b6de40976
    • 场景

      • 1000+节点

      • 用于大规模数据计算

      • 亚秒延时、单表10M qps

    • 架构

      • 拆分ZooKeeper 

      • 分离Kylin

      • 异构存储 WAL-on-SSD

      • BucketCache 20G offheap

      • 非实时访问禁用BlockCache

  • HBase专用集群

7300785b6fadddedf40d01d1ed8ee2b4f94543de
    • 场景

      • 100节点

      • 线上实时访问,简单OLAP分析

      • 150ms以下延时,均值50ms

    • 架构

      • SSD

两备份(计算本地性要求低,HA)

BucketCache 50G offheap

控制计算任务执行

分离线上访问-计算分析

Phoenix:SQL、二级索引、Salt

调研中:Solr+JanusGraph  Atalas

业务独立集群

1ada453ecce73af1ad205070c3a0a80c34e4288b
    • 场景

      • 10-50节点

      • 用于业务特定需求

    • 案例-Flink流关联

      • 全量消息,数据量大,需5ms以下延时

      • 写入足够分散,无更新特性

      • 91.52%读最近1小时写入的数据

      • 非重复读,每条数据只会访问一次

    • 优化

      • 7天TTL,2备份,压缩后150TB

      • cache索引,cache_data_on_write 缓存最近数据

      • 读不替换缓存,减少缓存置换开销

      • compactionThreshold + compaction.max.size +BloomFilter

        缩小随机访问范围,减少compaction压力

  • 数据同步

3291eaed34cc57f74f9868b74746135795632928
    • 同步管理

      • 表级别控制

      • 定义同步链路

    • 表同步设置

      • export snapshort 

      • 目标表设置purge.deletes(24h)

      • 设置表同步

      • copyTable补数据

    • 定期一致性检查

      • 基于ReplicationCompare改造

      • 迭代多轮比较,验证最终一致性

  • 监控

7b0b6402fa0ea64874f1e4c185caf37ac60d0869
    • 统计型排查

      • 整合关键指标

      • 集群整体->服务器、表

      • 子维度排序、展开详情

    • 拨测

      • 表分布到每个RS,put/get

      • 表RowCounter检查

    • 指标存储

      • OpenTSDB + InfluxDB

      • 长时间、高基数聚合慢

        转型使用Druid

  • 升级策略

61c8a4df4aebea13d30a7cc3b734f8fce6caba4b
    • 需要持续关注社区release、patch

      • 升级历程:5.2.0→5.11.0→5.14.2→5.14.4

      • 5.11.0 HBase bugs:CDH-55446、HBase-17319、17069…

    • 版本管理

      • CDH Major、Minor、Maintenance 升级

      • QIYI Maintenance :5.14.4-qiyi-1

    • 源码开发、发布、部署

      • Gitlab管理源码,比较各release分支

      • 维护QIYI内部版本,发布到maven

      • 复用CDH rpm包

        ansible maven_artifact模块指定jar包版本


3.服务策略

  • 向业务提供服务的策略

    • HBase单集群多租户

      • 硬件资源利用率高

      • 部署管理方便

      • 隔离性差

    • 策略

      • 定义资源:HBase表

      • 集群容量:空间大小、region总数

      • 提供方式:模板化建表

      • 资源隔离性:尽可能确保各表健康

  • 资源与配额

a8fe038fba90eee3a2324a2a9cf5219b269bc9f1
    • HBase表资源

      • Default namespace

      • 未使用RS group

      • 通过平台工单申请,控制建表

      • 线上统一控制DDL、权限操作

      • 健康检查,确保表均匀无热点

    • 配额定义

      • 集群资源总容量

      • 部门配额

      • 资源分配配额

      • 资源实际使用量

  • 压测与容量

36891ca841e234ed1f3f0ecc2c1a41bbd3197fa2
    • 确定Space容量

      • /hbase目录的总Quota

    • 确定Region容量

      • 根据Memstore估算大概范围

      • 单节点压测,HBase pe,估算最佳region数、最佳并发数、读写峰值

        300个region,64并发数

        随机读 78K,  随机写 231K

        顺序读 133K,顺序写 426K

      • 300/RS,每个region容量:5~20GB

        读qps 0.26K~0.6K, 写qps 0.77K~1.5K

  • 模板化建表

aa3b8bfd4ca968ac7d9022ab55cc36840a8abbbf
  • 确定应用场景

    • 选择集群类型

    • 运行计算任务、实时访问、线上业务…

  • 关键表属性设置

    • 用户确定Version、TTL、同步链路

    • 自动设置BlockCache、MOB、分裂策略、压缩等

  • 确定表预分区方法

    • 16进制字符串、10进制字符串、采样

  • 配额

    • 数据量估算+峰值qps,推算Region数量

    • 用户可以只给出数

定期整理与健康度检查
221feff9001bd8ed47daf96861245cc3ccb688a0
    • 表定期整理

      • major compact

      • 自定义normalize

      • balance

    • 表健康度检查

      • 热点

      • 数据倾斜

      • 分区数不匹配


4.问题瓶颈

  • ZooKeeper重选,RS重连超时

    • 问题:

      • ZooKeeper发生重选时,Session重连,RegionServer发生ZK sessionTimeout宕机

      • ZooKeeper Zxid rollover,定期引发重选

    • 连接数过多,单个ZK-server 5000个连接

      • 限制maxClientCnxns,找出错误使用HBase Conn任务

    • Znode过多,25w个

      • 定期清理Replication残留Znode

    • ZooKeeper关闭连接时的瓶颈

      • ZOOKEEPER-1669,HashSet并发瓶颈

    • ZooKeeper Leader session激活(revalidation)瓶颈

      • ZOOKEEPER-3169,未解决,通过调高max session timeout应对

    • 减少对ZooKeeper依赖

      • 调研:ZK-less,AssignmentMananger v2

  • HBase启动恢复慢

    • 问题:

      • 1500节点,25w region

      • clean-startup 15min;主动关闭集群,经常无法正常进入clean-startup

      • 恢复流程需要1 hour左右

    • 错误判定为恢复流程

      • HBASE-14223,清理残留的Meta WALs

      • HBASE-15251,错误判断为failover

    • SplitWAL ZK阻塞

      • 参考HBASE-19290,调节RS遍历Znode停顿时间

    • SplitWAL并发控制,易引起gc问题

      • master.executor.serverops.threads x bulk.assignment.threadpool.size

    • 启动过程中,部分节点阻塞影响恢复

      • 及时处理启动过程中阻塞节点

      • 启动恢复过程中,停止业务访问(需要一种安全模式)

3a3cbfbcc111a752e1fd9989dfbbbf584be8f5c3
343b5b744a4af0fc75361a9152a4356a2b042f43
560e9c4f8f5bee1051f6ae678dfe7d2db70ac6d3
64be6aab7571397ae1069fbc9a84575dbc3a3743
b01bf8c78a1a84d5c424810e4a987f0589ad7969
d6cc23d4ea609e0cb51bbd9947d793ca6f61bb17
18d09a1ce5430e350ab2171126f06286ed9b1a2d
d520a6db892b790b4a0cc69a9c5dd87af668fb79
48f44a13bcb641f096db83c4cb23dae7b20a7dda
0ebe34f696072c671eaeaaa6ba07230d5098ea96
bb5e6e0a3986fb58a5701301d5390658c64dae2d
e2ab832d703f3b861126b779cb18d541730767cf
e57b103377608f14bb00f4386a85cb37f29281a2
536b761180fab94f184e9c4c6b7fb4b50ea6a9bd
996da3b690638754696fb82f18f3027e74de4b8f
a5d92e35bdaa11ff4f0f92cdf240c5eb0783c6e4
2e643893227c030a018ac60935f210fe679f9ee7
35a90efe472a70416cf22436f69760d86f8f806d
68cf654059f46e051f444fc1a9bcf0297cfe4725
9131aa20f6982ed297d7d2bf8bd3f4e80dedd170
ae59101b19ff1c2b7c7ade15cf94c5096033cb51
fc31b9f04c1a8b1d980bdc64465dc12d55963747
9cca8262e4fa8b541d7ba3b6d81f95d2dd8b1e80
9ca3ad324667628865366e8e002a6270e72b9b66
3dd2936a6985d322d3c9a6b704697bb672633ce4
f3a0cd3e1eb6c7fb37ec1782f94e3ee78e751902
955155c51e2fd4a258ae877f002969de9b640acd

d3f2f0da5b6761a64c7049db7719525a2c492a0c

187afc6e323c50e00bfbdfb52cc3327f4b40ce15
HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s

【云栖快讯】云栖专辑 | 阿里开发者们的20个感悟,一通百通  详情请点击

网友评论