阿里5位嘉宾3个分享:HBaseCon Asia 2017干货满满

简介:

HBaseCon是Apache HBase官方举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。通常HBaseCon的举办地是在美国,这是HBaseCon第一次在亚洲举行,命名为Apache HBaseCon 2017 Asia。而且这次会议举办地选择在中国深圳,也足以见得HBase在中国的火爆程度和中国开发者们对HBase社区所做的卓越贡献。

Apache HBase是基于Apache Hadoop构建的一个分布式、可伸缩的Key-Value数据库,它提供了大数据背景下的高性能的随机读写能力。做为最早研究、使用和二次开发HBase技术的中国公司,阿里巴巴从2010年就开始使用HBase,经过近7年的发展,现在采用HBase存储的业务已经超过1000+,拥有了上万台的HBase集群规模,在HBase上存储的数据已达PB级。秉承开源和分享的精神,阿里把HBase的实践经验和改进不断回馈HBase社区,比如说Bucket Cache和Reverse Scan等功能,给HBase技术发展带来了非常深远的影响。同时,也给HBase社区培养了2名PMC和2名Committer,阿里在HBase社区的影响力可见一斑。那么这次HBaseCon 2017 Asia。阿里派出了一位HBase PMC和2位Committer,还有两位资深的HBase开发,给大家带来了十足的干货。

阿里干货系列

一、强同步复制

传统的HBase主备集群同步使用的方案是异步复制,这使得主备集群数据之间会有短暂的数据不同步现象。用户为了灾备,不得不放弃强一致模型。没法放弃强一致语义的用户,必须自己写一套复杂的逻辑来保证主备集群之间数据的读写一致性。阿里的HBase技术专家天引,在此次的HBaseCon Asia上给大家带来了强同步复制方案。

据天引介绍,强同步复制方案采用了主备并发写和RemoteLog技术,使得在同城网络条件下同步复制相对于异步复制仅有2%的吞吐量下降。当一个请求到达主库后,并发写本地和备库,到达备库的同步写不需要走完整的写入路径,而是直接写入RemoteLog,降低同步写开销与延时。除了同步链路外,还有一套异步链路将数据从主库复制到备库,因此正常情况下不需要回放RemoteLog的数据到备库,在主库不可服务的情况下,只需要回放RemoteLog中那些还没有被异步复制链路同步到备库的数据,异步复制只有几秒钟的数据延迟,这保证了可以在很短的时间内完成从主库到备库的切换。

此方案在大会现场引起了强烈反响,很多HBase用户表示这是他们期待已久的功能,希望能尽快使用上。天引表示此功能目前基于阿里内部分支实现、运行及完善,未来将会回馈给社区。

二、SQL on HBase

阿里HBase服务了大量的内部用户,并持续有新用户接入。但是使用HBase的用户有很大一部分是从传统的SQL数据库转过来的,HBase的rowkey设计和API的使用习惯对于他们来说并不友好。为了降低这些转型用户的使用门槛,阿里在HBase上引入了SQL层。来自阿里的资深HBase开发工程师天穆,给大家详细讲解了如何玩转SQL on HBase。

通过优化,现在在阿里使用SQL访问HBase和原生API的速度已经相差无几,而且在SQL语法上,创造性地支持HBase多版本和时间戳等NoSQL才具有的功能。

另外,在HBase上同时支持了全局二级索引和本地二级索引。使用户可以在多列上建立索引,简化了业务的设计,提升了请求效率,降低了使用成本。

三、跨集群分区拷贝

HBase上通常承载着海量的数据,而在日常生产过程中,随着业务的发展和公司数据中心的规划等原因,这些海量数据需要经常搬迁,这通常对于运维来说是一个非常头疼的问题。来自阿里的HBase社区Committer正研,分享了阿里跨集群分区拷贝的场景和成熟解决方案。

正研首先介绍了在阿里内部常见的需要数据拷贝的场景,比如说新建数据中心,HBase集群需要整体搬迁到新的机房;又比如说不同机房内的HBase集群的增量数据同步,可以用replication来解决,但是对于存量数据,目前还没有比较高效的方案;另外还一个常见场景就是数据恢复,而传统的HBase备份还原工具都没法控制数据恢复的范围。

因此,阿里研发了Range Data Copy功能内置在HBase中,提供了一个简单高效,而且能够自动处理各种错误情况和灾难恢复的数据拷贝功能,使用这个功能拷贝一张200TB的表到另外一个集群,所需时间不到5小时。

四、读写链路优化

在阿里使用HBase的过程中,对HBase本身做了非常多的读写性能优化。来自阿里的HBase社区PMC绝顶和Committer天照,一起给大家分享了阿里在这方面所取得的一些成果。

1、使用Netty替代HBase原生的RPC server,大大提升了HBaseRPC的吞吐能力,降低了延迟 ;

2、 引入新的HFileBlock编码格式,把顺序搜索变成了二分查找,提高了HBase随机读的能力

3、拆分写链路,释放阻塞的handler资源,提高了HBase写的吞吐能力 ;

来自阿里的这些优化黑科技,使HBase的能力又更上一个新台阶。并且这些优化和功能目前已经回馈给了社区,所有的HBase用户都能在新版本的使用获得这些技术红利。

总结

除了阿里带来的技术分享,现场许多其他公司也都带来了他们对HBase做出的改进和使用经验。比如说小米实现了AsyncClient,填补了HBase没有原生异步API的缺口;知乎使用kubernetes自动扩容缩容HBase集群,灵活地适应业务高速发展和瞬息万变;烽火网络隔离读写资源使近线查询更加稳定等等。

除了上述提到的这几个亮点技术分享,此次HBaseCon大会的每一个session都非常精彩,给大家带来了一场又一场思维碰撞的盛宴。Apache HBase“掌门人”Michael Stack也参加了此次会议,并与HBase开发者们举行了一次圆桌会议,共同探讨HBase的现状和未来。

这次HBaseCon的火爆程度,直接展示了国内企业和开发者们对HBase热情和期望。HBaseCon大会不仅给HBase的使用者们带来了最新鲜的技术进展,互通有无,吸收其他公司的先进经验;也成为HBase使用者和开发者之间沟通的桥梁,能让开发者们看到业界动态,用户的需求,共同把HBase打造成一个更加易用,更高性能,更稳定的大数据存储。这次HBaseCon大会是一个很好的开端,期望HBaseCon Asia越办越好,给大家带来更多的干货!

最后

如果你对大数据在线存储、对HBase感兴趣,或者是想更好地使用HBase、开发更NB的产品,欢迎联系我们(正研,zhengyan.ywl@alibaba-inc.com),一起交流,互相学习!


本文作者:杨文龙(正研)

来源:51CTO

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
5月前
|
Cloud Native 大数据 Apache
FFA 2023|第六届 Flink Forward Asia 峰会议程正式上线!
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
244 0
FFA 2023|第六届 Flink Forward Asia 峰会议程正式上线!
|
6月前
|
架构师 数据挖掘 OLAP
与创新者同行,Doris Summit Asia 2023 线下技术峰会圆满落幕!
10 月 21 日,由飞轮科技主办、阿里云与腾讯云联合主办的 Apache Doris 社区首届线下技术峰会 Doris Summit Asia 2023 在一片热潮中落下帷幕。
|
6月前
|
安全 数据挖掘 OLAP
驱动数字化转型,Doris Summit Asia 2023 智慧金融与政企论坛精彩预告!
2023 年 10 月 21 日,首届线下峰会 Doris Summit Asia 2023 将在北京丽亭华苑酒店正式举行,大会将设置主论坛和智慧金融与政企、先进智造与电信、企业服务与新经济、互联网与文娱 4 个平行论坛,来自金融、互联网、政企、制造、电信、文娱等行业的数十位技术专家将与上千参会者一道,分享各行业标杆用户最佳实践与多场景解决方案,共同探讨数据分析领域最前沿的技术与未来趋势。
|
8月前
|
存储 分布式计算 大数据
CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享
阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。
557 0
|
Apache
ApacheCon Asia 2022 演讲征集开始了!
ApacheCon Asia 2022 演讲征集开始了!
|
消息中间件 机器学习/深度学习 数据可视化
ApacheCon Asia 2022 强势来袭!16 大专题等你投稿!
今年七月,ApacheCon Asia 2022 强势来袭,针对亚太地区的开发者特举行 ApacheCon Asia 在线会议。足不出户,即可参加 Apache 技术盛宴,7 月 29 日至 31 日持续三天的 Apache 项目内容涵盖数十个类别,从大数据到金融科技,从搜索再到大家熟悉的 Tomcat 等。
ApacheCon Asia 2022 强势来袭!16 大专题等你投稿!
|
存储 Kubernetes 监控
KubeCon China 2021 阿里云专场来了!这些首日亮点不容错过
2021 年 12 月 9 日-10日,阿里云携 10+ 技术专家正式亮相年度顶级云原生开源技术峰会 KubeCon + CloudNativeCon + Open Source Summit China 2021,并带来阿里云云原生专场,不仅汇聚行业发展方向的精彩主题演讲,在云基础设施、可观察性、存储、定制和扩展 Kubernetes、性能、服务网格、无服务器、容器运行时、CI/CD、网络等云原生与开源技术等各大专题中,从阿里云真实业务场景中走出来的云原生技术最佳实践也将一一呈现。
341 0
KubeCon China 2021 阿里云专场来了!这些首日亮点不容错过
|
流计算 大数据 Apache
重磅揭晓!Flink Forward Asia 2019 议程完整出炉
60 年前,人工智能的诞生刷新了人类对技术的期待;过去 10 年,大数据、云计算等核心技术的发展,推动了整个社会的重构与革新;5 年时间,移动互联网从诞生到逐步实现万物互联,数据在现实中的边界正在不断被拓展;技术迭变的进程不断加快,新兴技术的涌现昼夜不停。
|
分布式计算 Spark 开发者
7月24日阿里云峰会.上海 开发者大会回看
阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!
7月24日阿里云峰会.上海 开发者大会回看
|
人工智能 大数据 分布式数据库
中国HBase技术社区第三届MeetUp —HBase应用实践专场(杭州阿里西溪园区)
HBase—Hadoop Database是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase的特点是高可靠性、高性能、面向列、可伸缩的分布式存储系统,如今HBase已经广泛应用于各互联网行业。
1789 0

热门文章

最新文章