ApsaraDB-HBase双集群和稳定性

简介: 摘要:在2018年1月25日的数据库直播上由阿里云HBteam的玄陵带来了以“ApsaraDB-HBase双集群和稳定性”为主题的分享,通过对云HBase双集群方案的必要性、常见跨集群数据复制方案、云HBase 跨集群数据复制、云HBase双集群方案选择以及云HBase服务的稳定性进行了详细的介绍。

摘要:在2018125日的数据库直播上由阿里云HBase team的玄陵带来了以“ApsaraDB-HBase双集群和稳定性为主题的分享,通过对云HBase双集群方案存在的必要性、常见跨集群数据复制方案、云HBase跨集群数据复制(增量/全量)、云HBase双集群方案选择以及云HBase服务的稳定性进行了详细的介绍。

直播视频:https://yq.aliyun.com/video/play/1333

PPT下载:https://yq.aliyun.com/download/2460

以下内容为精彩视频整理:


HBase双集群方案的必要性

介绍一下服务做双集群的必要性,双集群常见于一些在线服务,因为对于在线服务来说服务可用性更敏感,且对数据可靠性要求更高,双集群的灾备或者说一个多活的方案为在线服务提供了更优的服务稳定性。当检测到Master集群不可用才可以把流量切换到备份集群,这就是一个灾备。同时也可以做主备的集群的流量分切等,把主备的资源都利用起来。在线集群如果由于主集群挂了或者部分时间不可用,如果有backup,那么可以瞬间流量切到备份,提高服务可用性。离线服务可能对可用性不是这么敏感,挂了一段时间再继续服务,可能离线服务根本不care。

 

常见跨集群数据复制方案

接下来先介绍一下数据复制这一模块常见的解决方案以及它的原理。这一模块它会涉及到增量复制以及全量复制,先来介绍一下增量复制常见的一些解决方案,大概归纳为下面几个方面:

1.双写:现在有两个集群Master和Slave,在业务层做双写的服务,把流量在主集群写一份,备份集群写一份,任何一条写请求过来的话,可以保证在主集群Master上和备份集群Slave上都写成功后,这次写才是成功的。当发现主集群挂掉了,可以把流量倒到备份集群上;

2.复制log:在增量复制的时候要先复制log,比方一个主库一个备库,先把写流量打到主库,备库做解析。常见的有mysqul复制binlog、mongo复制oplog、HBase复制WALlog;

3.EACH_QUORUM/LOCAL_QUORUM:同过C*cross dc back up方案;

4.Consentsus协议复制:Consentsus是做内部的数据同步;

5.其它;

3884fe2706c24c83dda26cb93d6a0f601a9ab826

全量复制大概有下面几个方面:

(1)批量跑Map Reduce导数据(copytable);

(2)Copy file+bulkload,从文件级别copy到备份集群,bulkload是直接从数据文件把数据load起来,最终在内存里面以及在物理磁盘上可能会有新增的索引文件;

(3)数据库自身方案:云HBase有一套一键迁移工具和C*rebuild工具;

全面复制的特点如下:

HBase一键迁移工具可以做到表级别的复制,使用起来比较快捷,可以做到容错和灾备,还可以在线的调整它的速度。

除此之外还有一个Distcp的功能,它就是copy file+bulkload,但单机bulkload资源消耗的比较严重,影响在线的备份速度。

Copy table是在源端做一个scan请求,对在线的源端大量的scan是影响它的内存、以及影响它的在线请求。

 

HBase 跨集群数据增量复制

对云HBase 做replication我们也会提供异步复制,异步复制和社区相比会有一些优点,下面从这几方面介绍一下它的优点:

1)提升源端发送效率:在复制HLog这一流程的时候,是对HLog进行的一个串行的读取。

让源端发送的过程进行多线程并发的操作,这样对发送的效率有所提高,进而对接收效率也进行提高;

2)提升目标端Sink的效率:源端预合并HLog,目标端进行并行化消费;

3)热点辅助:进行基于历史监控的负载均衡算法均衡请求,进行人工运维;

这是我们在原有异步复制上面的一个优化,除此之外我们还做了一个基于云HBase同步replication,因为原来的replication是异步的,所以就HBase这个版本除此之外它还有一个同步的replication分量复制。

fc6974b372c42f094dc0144bc2b7fc9cc9780d99

同步复制是发一条请求在本地先写WALlog,同时并发在备份Cluster上写一条RemoteLog,在本地写memstore。同时在下面主备之间的Log复制逻辑用的是原来的异步复制逻辑。当我现主集群挂了,把流量切到备份集群,这时备份集群自己要做一个恢复,恢复的时候就需要在RemoteLog上做一个同步的恢复RemoteLog并不会一直存在,当发现主集群的Log异步复制备份之后,就可以把RemoteLog删掉了。

 

下面总结一下云HBase在增量复制这一块的优点,

1)支持强同步复制:保证主备集群写入强一致同步,一旦主集群挂掉了,可以在备份上读到最全的数据;

2)对同步和异步做到了同存:同步复制表不影响异步复制表的读写;

3)灵活切换模式:当主集群挂了或者异步集群挂了,同步复制可以一键切换为异步复制,不阻塞主集群写入;

4)高性能复制:复制性能比社区是高一倍的,尽可能的并行化处理;

 

HBase双集群方案选择

对于在线服务会有灾备的需求,也可能会有双活的需求常见的方案有业务层做一些切换以及重试、consensus协议保证、云HBase:DB层面做灾备/双活,业务无感知。

介绍一下之前做双集群方案的调研。

fc61cda458bc15fb64884227f305fdfc2d029b9e

第一种是有主备的hbase,主备集群可以共用一套Zk,在Zk里面丢上主集群的地址和备集群的地址。当发现主集群是挂掉了,可以人工的在Zk里把地址做一个替换,请求就会直接访问备份集群不会访问主集群。它的优点是架构比较简单,缺点是一旦Zk挂掉之后,主备集群就会完全无法工作。

6c92c05dfe7498652dcc59631bae86fcd4dde762

第二种方案是主备hbase和各自的Zk,这个的好处是不会依赖于共有的Zk,Zk不会成为致命点。但在配置管理+消息推送这会有一个配置管理的工具,它专门的去存储地址。

486b6e79ff253d24111469a2e5f5b0402416e4fe

第三种就是我们自己的主备hbase+client retry,大部分逻辑是丢在client层面,在client上做一些判断。还有智能的不可服务的诊断系统,当发现主机不可服务后会在网络层面把这个事做一个锁定,Client层面感知到这个锁定后会把流量自动的切到备份。对于put/get/delete/batch多样化的复制,来一个put请求丢到主机里复制备份,当client层面发现主集群不可服务了,client自己会把流量切到备份。Client也有方毛刺抖动的预防功能和云HBase异步复制的功能。

我们之所以选择第三种方案,因为在云上的环境比较复杂,而方案一、二都需要依赖其他的组件,如果再在云上加一个组件整个流程是比较复杂的,所以我们选择了一个最简单的方案,后期还可以在client层面做一些策略的路由,这样可以支持后续多活的延续。

HBase服务稳定性

双集群的稳定性,现在购买双集群实现的逻辑是在同region下,不同的Az和相同的Az都是可以支持服务的,这样可以防止区域性外界原因造成的服务不可用问题。出现单集群某些机器出现OOM问题可以把风险降到很低,不影响整体服务可用性。除此之外后续还会有一个双活的规划,后续支持可配策略的访问模式,主备异构。


本文由云栖志愿者小组陈欢整理,百见编辑。

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
6月前
|
运维 NoSQL 安全
【最佳实践】高可用mongodb集群(1分片+3副本):规划及部署
结合我们的生产需求,本次详细整理了最新版本 MonogoDB 7.0 集群的规划及部署过程,具有较大的参考价值,基本可照搬使用。 适应数据规模为T级的场景,由于设计了分片支撑,后续如有大数据量需求,可分片横向扩展。
485 1
|
安全 前端开发 关系型数据库
单机手动部署OceanBase集群
单机手动部署OceanBase的实验步骤,有详细截图
1141 0
|
11月前
|
存储 分布式计算 Ubuntu
|
存储 SQL 弹性计算
分布式1024节点!1天玩转PolarDB-X超大规模集群
本实验主要通过polardbx-operator,借助阿里云ACK容器服务,快速部署和体验PolarDB-X的大规模分布式(1024节点),通过常见的sysbench/tpc-c等benchmark工具来初步验证大规模节点下的稳定性。
分布式1024节点!1天玩转PolarDB-X超大规模集群
|
存储 分布式计算 数据挖掘
clickhouse集群zookeeper平滑搬迁实践
clickhouse集群zookeeper平滑搬迁实践
767 0
clickhouse集群zookeeper平滑搬迁实践
|
存储 缓存 容灾
HBase可用性分析与高可用实践
HBase可用性分析与高可用实践
256 0
HBase可用性分析与高可用实践
|
存储 SQL 容灾
PolarDB-X 存储架构之“基于Paxos的最佳生产实践”
多分组Paxos 事务提交和复制 多副本配置和部署 高可用检测和恢复
761 0
PolarDB-X 存储架构之“基于Paxos的最佳生产实践”
|
Hbase 分布式数据库 存储
阿里云HBase推出普惠性高可用服务,独家支持用户的自建、混合云环境集群
阿里云HBase服务了多家金融、广告、媒体类业务中的风控和推荐,持续的在高可用、低延迟、低成本方向上进行优化。为了进一步满足客户在可用性以及低延迟上的诉求,阿里云HBase将提供以主备架构为平台,以冗余、并发、隔离、降级等全方位服务为支撑的高可用解决方案。
5283 0
阿里云HBase推出普惠性高可用服务,独家支持用户的自建、混合云环境集群
|
运维 监控 分布式数据库
BDS - HBase数据迁移同步方案的设计与实践
目前在阿里云上,BDS是如何进行HBase集群之间的数据迁移和数据的实时同步的
6621 0
BDS - HBase数据迁移同步方案的设计与实践
|
容灾 关系型数据库 分布式数据库
BDS-HBase集群之间数据迁移同步的利器
BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等。目的在于帮助阿里云上客户解决自建HBase、EMR HBase、Apsara HBase的数据导入导出,从.
4291 0
BDS-HBase集群之间数据迁移同步的利器

热门文章

最新文章