HBase 备份恢复-阿里云开发者社区

HBase 备份恢复

2018-11-26 2189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生多模数据库 Lindorm，多引擎多规格 0-4节点

云数据库 Redis 版，社区版 2GB

云数据库 MongoDB，通用型 2核4GB

简介： Apsara HBase 备份恢复所有的数据库产品都有备份恢复，Apache HBase官方目前没有一个release版本的备份恢复功能，官网提出的方案和机制操作都是很复杂。所以阿里云赋能HBase的备份恢复能力并支持全量和增量的备份和恢复，同时具有高性能、低成本和低线上影响充分自动化。

Apsara HBase 备份恢复
所有的数据库产品都有备份恢复，Apache HBase官方目前没有一个release版本的备份恢复功能，官网提出的方案和机制操作都是很复杂。所以阿里云赋能HBase的备份恢复能力并支持全量和增量的备份和恢复，同时具有高性能、低成本和低线上影响充分自动化。而且备份恢复是独立于HBase之外的模块，不影响HBase的正常使用，并且备份恢复模块有自有failover的能力，保证备份恢复的持续性。

Apsara-HBase 备份恢复组成图

1.独立于Apsara-HBase的备份恢复模块，提供独立的模块支撑
2.支持全量/增量恢复以及全量/增量恢复，高数据恢复精确度
3.全量/增量备份有failover模块保证数据安全备份
4.支持冷热分离等统一文件系统接口，并支同时持HBase的1.x、2.x版本的接口
5.数据备份到oss，拥有极高的数据可靠性，且存储成本低廉，oss上备份数据不会存在冗余的情况

**云HBase备份恢复原理
整体组成**

1.备份包括全量备份和增量备份，全量备份是在某个时刻的全量备份，增量备份是从某个时刻起的Hlog的备份，同时也会对两种备份数据压缩。
2.恢复也包括全量恢复和增量恢复，增量恢复是指从最近的全量恢复的时间点到指定的时间点的Hlog的增量恢复，全量恢复是指定时间点最近的一次全量备份数据恢复。
如图所示，恢复全量备份点2和增量备份点4的数据：全量恢复使用bulkload 增量恢复使用的是replay

相关指标

1.全量备份最长时间限制是4天
2.全量恢复最长时间是1.5天
3.RPO(Recover Pointobjective)业务系统所能容忍的数据丢失量是1小时，二期会支持秒级
4.数据可靠性高达11个9（99.9999999%）且OSS存储成本极低
5.定期清理过期备份数据，可以降低备份数据的冗余
备份部分：全量备份

全量备份的架构图如下：

RS和MASTER的调度身份有所不同，如上图master节点会做snapshot的备份，RS节点做的是Hfile的备份，上转任务切分实现了两种方案 a) round robin近均匀策略 b) 基于short-circuit read的切分策略。使用failover机制保证失败重试，且基于Hfilelink，追踪hfile路径，保证读到数据。

备份部分：增量备份

增量备份的架构如下：

正常情况下，各个hlogserver负责自己机器相关的hlog，并且实时收集备份hlog，备份精度在一小时以内。实现Hloglink，追踪hlog全链路的踪迹，保证读到数据；追踪WALs/oldWALs/splitting 3种状态，内存占用量只有20MB。 hlogserver采用了round robin takeover 策略保证不会漏备任何一条hlog。

下图是Hlogserver failover是的示意图：

当Hlogserver1服务和ecsdown机的时候，Hlogserver会把Hlogserver1当前的任务log13、log14转给Hlogserver2执行。如果Hlogserver1恢复服务的时候log1x相关的任务会继续在Hlogserver1上执行。