开源NewSQL – CockroachDB在百度内部的应用与实践

简介:

NewSQL起源

对于MySQL、Oracle、PostgreSQL这样的单机数据库,随着数据量的增长在计算容量和存储容量上都会出现问题。于是后续又推出了基于中间件或者NoSQL的方案,但是都并非完美,比如中间件在分布式事务方面以及NoSQL在SQL接口和对事务的支持方面做了一定退让。

2011年分析师Matthew Aslett首次提出了NewSQL的概念,期望将NoSQL和传统的数据库的优势融合,将现有数据库存在的缺陷在下一代中解决掉。而Google首先将这一概念工程化,也就是Spanner。随后开源社区也陆续跟进。

Cockroach DB简介

Cockroach DB于2014年托管在GitHub,遵循Apache License,基于Golang实现。 Star数量12000+,Contributor数量150+。当前2.0.1版本。母公司是Cockroach Labs,公司的三位创始人全部来自Google,有Big Table,GFS,Colossus,Gmail项目背景,已获得来自Benchmark,Google Venture等共计5325万的融资。总部位于纽约,目前有50+员工。

Cockroach DB架构

Cockroach DB采用类似Spanner的分层架构,在分布式KV上提供了SQL引擎,分布式KV之下引入了自身独有三个概念Node、Store、Range。

Node & Store

Node是Cockroach DB的进程实例,一台物理服务器启动一个Node即可,一个物理存储介质(例如一块硬盘)一般配置一个Store,一个Node中有多个Store。

Range

Range是Cockroach DB存储管理的最小单位,一个Range是一段键值区间的数据分片。一个Store中有多个Range,每个Range分片默认为64M,默认存在3个副本,分布在不同的Node上。

ockroach DB特性

标准SQL接口

Cockroach DB使用PostgreSQL协议,支持标准SQL接口,兼容关系型数据库SQL生态。支持事务、二级索引、Join等NoSQL欠缺的特性,同时还供了类MPP的分布式查询框架。它还支持Schema在线变更,以方便应对业务的变化。

SQL & KV

由于Cockroach DB底层是分布式KV,那么必然就要将所有的SQL操作转换为KV操作。于是它就在底层抽象出了Get、Put、ConditionalPut、Scan、Del这五个KV作原语。

SQL / KV模型映射

解决完KV操作的问题后,还有另一个问题有待解决,即Schema到KV模型的映射。Cockroach DB的每个表都需要有一个Primary Key,每一列(不是每行)构成一个Key / Value存储单元,Key由<db>、<table>、<index>、<pkey>、<columnld>这几部分共同构成。

唯一索引

在KV存储中必须保证key全局唯一,这样就能方便前缀匹配。Cockroach DB为了实现唯一索引,首先会将<db>、<table>、<index>、<key>编码到Key中,当做索引扫描时就要进行前缀匹配,然后就能将相应的Value取出来。这里由于<key>是全局唯一的所以索引的唯一性也得以保证。

非唯一索引

对于非唯一索引Cockroach DB处理就比较巧妙了,它将行的<pkey>也编译到了Key中,这样对索引做前缀匹配时,只要相关的索引项匹配到index前面,就能将相应的<pKey>取出来,然后通过<pkey>反向索引到数据。

Column Family

在行存系统中数据的更新只需要进行一次IO操作,但是由于Cockroach DB是列存的,数据在更新时要进行多次IO。为此Cockroach DB提出了column family的概念,将需要被频繁访问的列封装到一起,甚至可以通过column family的方式退化到行存的方式,这样就能有效减少IO操作。

扩展能力强、高并发

为了实现线性扩展的能力,Cockroach DB采用了去中心化的架构,任意节点故障对于集群无影响。它通过Gossip协议实现节点状态管理,理论上单集群支持10K节点规模。两级路由元数据的方式使得单集群最大支撑4EB用户数据存储。整个架构中子模型都采用分布式设计,无单点瓶颈,支持多节点并发写入。

弹性伸缩

面对单机数据库扩展性的问题,一般采用哈希的数据分布方式。但是除非是使用的是一致性哈希,否则普通的哈希分布都需要有数据迁移和停服的过程。而Cockroach DB选择的是Range分布,在进行扩容时无需停服,直接可以在线扩展,同时因为每个数据都被划分为64M的小分片,所以在新节点加入时能做到业务无感知的自动负载均衡多副本强一致性。

MySQL数据同步采用的主从复制架构是弱一致性的,而Cockroach DB的副本数据同步是基于Raft协议,具有强一致性,不会出现当某个节点挂了同时redolog还没有完全复制到从库上导致数据丢失的问题。

服务高可用

Cockroach DB由于架构上去中心化,没有SPDF,所以架构不存在类似Hbase HMaster和Percolator oracle等集中模块,单节点故障也不影响集群群体的可用性。


另外因为基于Raft协议,所以只要半数以上副本存活,则服务可用;当节点异常,数据副本数量少于指定阈值时,自动补齐副本,保证可靠性。

分布式事务

2PC

Cockroach DB使用的是改造过的两阶段提交事务,它引入全局事务表记录事务状态,事务提交/回滚只修改记录的标记位。事务中写入的数据被封装成特殊结构(INTENT),这个INTENT中隐含着索引信息可以反向索引事务状态。这种事务处理模型的好处在于事务提交、回滚开销比较小。

1PC

当所有的事务都是写在一个Range上时,可以利用Raft保证原子性,一次完成数据写入。同时能够优化非跨Range写事务性能,减少RPC通信。

MVCC

Cockroach DB使用MVCC的并发控制模式,它以HLC时间作版本号,逆序存储保证最新版本数据优先被访问。支持Time-Travel Query,多版本数据由异步GC清理。

HLC算法

44156cd65df32a60e6f52d87e5b33b9ee60aafb8

HLC算综合借鉴了Physical Clock和Logical Clock思想。HLC Timestamp ID由时间和逻辑时间两部分组成,物理时间通过NTP同步。在发送消息、产生本地事件和接收到消息时,I、J都会被重置为几个参考值中的最大值。这样消除了单点时钟逆变或不同节点间时钟误差的影响。

与True Time时钟算法比较

HCL算法实现简单、成本低,有一定时延。它基于NTP时钟服务,不需要额外的硬件,算法简单,实现成本低。不过存在时钟偏差,广域网情况下偏差范围会比较大。

True Time时钟算法有一定成本、时延低。它基于GPS+原子钟等特殊硬件,实现成本较高。本质上类似Physical clock时钟算法,以一个误差区间来替代时刻点。True Time时钟系统精度远远高于NTP,可将时延控制在14ms内。

典型应用场景

Cockroach DB比较适合OLTP场景,同时支持轻量级别OLAP场景。这些场景有如下特点:

- 高并发读写,支持多点写入,自动负载均衡

- 大数据量存储

- 随时按需扩展、在线扩容

- 跨数据中心容灾,多副本数据强一致

- 时延要求不苛刻

应用案例

在之前百度内部是通过中间件的方式做数据的分片,但是当要扛峰值流量时就要预先扩容。而且在业务层做数据访问时,必须按照固定的规则才能访问数据,不能跨片做分布式事务。

在引入Cockroach DB之后我们就能对业务提供统一的数据库视图,使用起来也更简单,更易于运维。

在引入Cockroach DB之前我们还做了MySQL语法协议兼容、数据同步、自动化运维的工作。



原文发布时间为:2018-05-16

本文作者:严龙

本文来自云栖社区合作伙伴“数据和云”,了解相关信息可以关注“数据和云”。

相关文章
|
1月前
|
运维 网络协议 安全
长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践
本文将介绍百度基于golang实现的统一长连接服务,从统一长连接功能实现和性能优化等角度,描述了其在设计、开发和维护过程中面临的问题和挑战,并重点介绍了解决相关问题和挑战的方案和实践经验。
78 1
|
2月前
|
Kubernetes 应用服务中间件 nginx
百度搜索:蓝易云【使用Kubernetes部署Nginx应用教程】
现在,你已经成功在Kubernetes集群上部署了Nginx应用。通过访问Service的外部IP地址,你可以访问Nginx服务。
42 4
|
2月前
SAP UI5 应用如何实现类似百度首页一样的访问方式试读版
SAP UI5 应用如何实现类似百度首页一样的访问方式试读版
35 0
|
3月前
|
安全 应用服务中间件 nginx
百度搜索:蓝易云【使用Debian、Docker和Nginx部署Web应用教程】
这些是在Debian上使用Docker和Nginx部署Web应用的基本步骤。根据您的需求和具体环境,可能还需要进行其他配置和调整。请确保在进行任何与网络连接和安全相关的操作之前,详细了解您的网络环境和安全需求,并采取适当的安全措施。
45 0
|
5月前
|
搜索推荐 中间件
系统入门到实战学习某项技术、有问题找"百度"、学习大佬的技术博客、找开源代码等资料
系统入门到实战学习某项技术、有问题找"百度"、学习大佬的技术博客、找开源代码等资料
56 0
|
6月前
|
存储 缓存 搜索推荐
百度搜索:蓝易云【Elasticsearch 底层技术原理以及性能优化实践】
和副本、优化硬件、设计合理的索引、编写高效的查询以及利用缓存和预热等策略。通过综合考虑这些方面,可以提升Elasticsearch的性能并获得更好的搜索和分析体验。
280 0
|
2月前
|
前端开发 安全 Go
无法通过 iframe 将百度首页嵌入到自己的前端应用里
无法通过 iframe 将百度首页嵌入到自己的前端应用里
167 0
|
3月前
|
存储 监控 网络协议
百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践
本文将通过一个百度搜索旗下的金融场景案例来分享构建高实时、高可用的分布式数据传输系统的技术实践。
49 0
|
4月前
|
存储 数据处理 数据安全/隐私保护
百度搜索:蓝易云【Python语言中while循环的应用举例】
以上是一些使用while循环的常见应用举例。通过while循环,你可以实现重复执行特定代码块的逻辑,直到满足退出条件。
55 0
|
4月前
|
Linux
百度搜索:蓝易云【centos系统应用日志文件被删,空间无法释放怎么办】
通过以上方法,你应该能够解决应用日志文件被删除但空间无法释放的问题,并恢复磁盘空间。
31 1