备案控制台

开发者社区

开发者社区数据库文章正文

【分布式系统工程实现】Bigtable Merge-Dump存储引擎

2016-04-11 1747

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

单机存储引擎解决单机读写问题，Merge-Dump存储引擎设计成一种通用的存储引擎，同时支持数据写入，随机读取和顺序扫描功能。顺序扫描功能应用很广，比如MapReduce批处理，同一个广告主的所有关键词广告统计，用户浏览所有的收藏信息，淘宝卖家管理大量的商品等。简单的KV系统只需要支持随机读取，而类似Bigtable这样的通用表格系统需要考虑基于主键的顺序扫描功能。Bigtable中的Merge-Dump存储引擎结构如下：

用户的操作首先写入到MemTable中，当内存中的MemTable达到一定的大小，需要将MemTable dump到持久化存储中生成SSTable文件。这里需要注意，除了最早写入的SSTable存放了最终结果以外，其它的SSTable和MemTable存放的都是用户的更新操作，比如对指定行的某个列加一操作，删除某一行等。每次读取或者扫描操作都需要对所有的SSTable及MemTable按照时间从老到新进行一次多路归并，从而获取最终结果。为了防止机器宕机，将用户的操作写入MemTable之前，会先写入到操作日志(commit log)中，这时一般会用到group commit操作，即将大量并发写操作聚合成一块一次性写入到commit log。由于写commit log为顺序追加，很好地利用了磁盘的顺序访问特性。

为了防止磁盘中的SSTable文件过多，需要定时将多个SSTable通过compaction过程合并为一个SSTable，从而减少后续读操作需要读取的文件个数。Bigtable中将compaction分为三种：minor compaction，merge compaction以及major compaction。其中，minor compaction指的是当内存中的MemTable达到一定的大小以后需要生成SSTable；merge compaction将连续多个大小接近的SSTable及Memtable合并生成一个SSTable；major compaction合并所有的SSTable和Memtable生成最终的SSTable文件。Minor和Merge compaction生成的SSTable文件中包含的还是用户的更新操作，只有Major compaction生成的SSTable才包含最终结果。一般来说，线上服务的写操作比较少，我们总是能以很大概率使得每个子表只包含一个SSTable和MemTable，也就是说，读取操作基本只需要访问一个SSTable文件和内存；而线下或者半线下服务，比如网页库，虽然写入操作多，可能经常出现一个子表包含多个SSTable的情况，不过这种类型的服务一般用于大数据量顺序扫描，对延时要求不高。SSTable的compaction有几个需要注意的点：

1, 限制SSTable的数量，必要时限制写入速度。如果写入速度持续大于compaction消化的速度，也就是大于系统的承载能力，SSTable将越积越多从而compaction永远无法成功。比如Cassandra存储节点采用了类似Bigtable的Merge-dump的做法，不过据说可能因为没有控制SSTable的最大个数也出现永远合并不成功的问题；

2, Compaction及写操作并发控制。Compaction的过程很长，compaction不能阻塞写操作，并且minor compaction和merge/major compaction可能同时进行。Compaction成功提交的时候需要互斥修改子表记录的SSTable结构数组，多个compaction同时进行的时候有些麻烦；

3, Minor compaction时机。当Memtable达到一定大小，比如4MB时，需要冻结Memtable并生成SSTable数据dump到磁盘中；同时，由于所有子表的操作日志写入到同一个commit log文件，当MemTable距离第一条数据写入超过一定的时间也需要执行minor compaction，否则，会出现机器宕机回放的commit log过多的问题；

4, Merge compaction如何选取SSTable文件。Merge compaction合并SSTable以减少读取的文件个数，每次merge compaction都是把相应的SSTable文件分别读写一次。为了提高性能，一般会要求Merge compaction选取连续的大小接近的SSTable文件。举个例子，如果有4个大小为4MB的SSTable文件，如果merge的策略为((s1 & s2) & s3) & s4 (&表示merge操作)，读取的文件大小为s1 * 3 + s2 * 3 + s3 * 2 + s4 * 1 = 4M * 9 = 36M，如果merge的策略为(s1 & s2) & (s3 & s4)，读取的文件大小为s1 * 2 + s2 * 2 + s3 * 2 + s4 * 2 = 32M，并且SSTable文件个数越多差别越明显；

数据在SSTable中连续存放，需要同时随机读取和顺序读取两种需求。SSTable被分成大小约为64KB的块(SSTable block)，由于单个tablet的大小一般为100MB ~ 200MB，我们可以认为SSTable的大小不超过256MB，包含的block个数为256MB / 64KB = 4KB，每个block需要包含起始行，结束行相关的索引信息，假设索引信息大小平均为256Byte，每个SSTable的索引大小为4KB * 256Byte = 1MB，磁盘内存比为256 : 1，16GB的索引可以存放16GB * 256 = 4TB的数据。SSTable的索引数据全部存放到内存中，随机读取需要先通过二分查找找到相应的block，然后从磁盘中读取相应的block数据。Bigtable系统使用的SATA盘的磁盘寻道时间一般为10ms左右，一次随机读取整个64KB的块造成的overhead是可以接受的。按照64KB划分块还带来了一个好处，数据量膨胀对性能的影响很小。顺序读取的做法类似，在Merge-dump引擎中是很高效的。与传统的数据库的数据格式不同，SSTable存放的数据一般都是稀疏的，大多数列可能都没有更新操作。

按列存储&压缩：数据仓库的应用场景中需要支持按列存储，有两个好处：第一个好处是减少读取的数据量，第二个好处是提高压缩比率。Bigtable支持指定locality group，每个locality group中的列在SSTable中连续存储，每一个locality group之内按照行有序存储，当然，数据在MemTable中是不需要区分locality group的。这样，compaction是按照locality group进行的，读取每一个待归并的SSTable中相应的locality group的数据，合并生成一个新的SSTable locality group。某些跨多个locality group的更新操作，比如删除一行，需要将更新操作同时写入到多个locality group中。

总之，Merge-dump是一种同时满足随机和顺序读取的通用存储引擎，可以广泛应用在各种NOSQL存储系统中，另外，Merge-dump存储引擎往commit log文件追加操作日志以及compaction过程都是顺序写文件，非常符合SSD的特性，天然适应硬件的发展趋势。

文章标签：

存储

分布式数据库

索引

NoSQL

关键词：

分布式bigtable

knuthocean

目录

相关文章

狼人2007

|

存储消息中间件监控

分布式系统工程实现：GFS&Bigtable设计的优势，互联网营销

　　目前，知名度比较高的通用存储系统包括：Google GFS&Bigtable，Amazon Dynamo，Microsoft Azure存储系统及Yahoo PNUTS。其中，GFS&Bigtable，Azure存储系统及Yahoo PNUTS都有总控节点，Amazon Dynamo采用去中心化的P2P设计。

狼人2007

1166 0 0

knuthocean

|

消息中间件存储 SQL

【分布式系统工程实现】GFS&Bigtable设计的优势

knuthocean

2045 0 0

傲海

|

存储缓存分布式计算

【分布式计算】DFS && BigTable

1.背景分布式计算的发迹应该是google在2003年发表的三篇paper，分别是GFS、MapReduce、BigTable。其中MapReduce大家都很熟悉了，不懂的同学也可以看看我之前写的文章【分布式计算】MapReduce的替代者-Parameter Server 为什么google会搞分布式计算这件事儿呢，因为在那个年代每天会产生几个T的日志，但是当时的磁盘只允许存储几

傲海

945 0 0

hsfxuebao

|

1月前

|

NoSQL 算法安全

Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题

Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题

hsfxuebao

153 0 0

hsfxuebao

|

1月前

|

NoSQL 关系型数据库 MySQL

分布式锁（redis/mysql）

分布式锁（redis/mysql）

hsfxuebao

58 1 1

码哥字节

|

3月前

|

NoSQL Java 测试技术

字节二面：Spring Boot Redis 可重入分布式锁实现原理？

字节二面：Spring Boot Redis 可重入分布式锁实现原理？

码哥字节

160 1 1

爱吃糖的范同学

|

3月前

|

存储缓存 NoSQL

【分布式】Redis与Memcache的对比分析

【1月更文挑战第25天】【分布式】Redis与Memcache的对比分析

爱吃糖的范同学

94 1 1

爱吃糖的范同学

|

3月前

|

监控 NoSQL Linux

【分布式】Redis的持久化方案解析

【1月更文挑战第25天】【分布式】Redis的持久化方案解析

爱吃糖的范同学

115 0 0

源码星辰

|

27天前

|

NoSQL Java Redis

如何通俗易懂的理解Redis分布式锁

在多线程并发的情况下，我们如何保证一个代码块在同一时间只能由一个线程访问呢？

源码星辰

37 2 2

张思睿ZGQ

|

1月前

|

缓存 NoSQL Java

【Redis】5、Redis 的分布式锁、Lua 脚本保证 Redis 命令的原子性

【Redis】5、Redis 的分布式锁、Lua 脚本保证 Redis 命令的原子性

张思睿ZGQ

60 0 0

热门文章

最新文章

TorchAcc：基于 TorchXLA 的分布式训练框架

GaussDB分布式与单机模式的比较

【软件设计师备考专题】数据仓库和分布式数据库基础知识

【亿级数据专题】「分布式服务框架」盘点本年度我们探索服务的保障容量的三大关键方案实现

缓存、分布式缓存和持久化

LLaMA-Factory 基于docker的大模型多卡分布式微调

【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析，实现高效数据同步

深度思考：雪花算法snowflake分布式id生成原理详解

Spring+SpringMVC+Mybatis的分布式敏捷开发系统架构

【软件设计师备考专题】面向对象数据库和分布式对象：理解新的数据管理概念

电子好书发您分享《PolarDB分布式版架构介绍PolarDB分布式版架构介绍》

电子好书发您分享《使用云起实验室体验PolarDB分布式版》

电子好书发您分享《PolarDB分布式版架构介绍》

如何本地搭建开源分布式任务调度系统DolphinScheduler并远程访问

《MySQL 简易速速上手小册》第6章：MySQL 复制和分布式数据库（2024 最新版）

分布式(计算机算法)

如何在大规模分布式系统中管理代理IP？

搞定了 6 种分布式ID，分库分表哪个适合做主键？

TensorFlow分布式训练：加速深度学习模型训练

缓存、分布式缓存和持久化

相关课程

更多

Spring Boot+Vue.js+FastDFS实现分布式图片服务器

基于Zookeeper、Dubbo构建互联网分布式基础架构

分布式文件存储系统技术及实现

分布式协调系统 Zookeeper 快速入门

NoSQL数据库Kudu教程

相关电子书

更多

基于社区的分布式风险感知模型

如何利用Redisson分布式化传统Web项目

FLASH:大规模分布式图计算引擎及应用

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）