数据切分——Atlas介绍

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:         Atlas是由 Qihoo 360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基础上,修改了大量bug,添加了很多功能特性。

        Atlas是由 Qihoo 360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基础上,修改了大量bug,添加了很多功能特性。目前该项目在360公司内部得到了广泛应用,很多MySQL业务已经接入了Atlas平台,每天承载的读写请求数达几十亿条。同时,有超过50家公司在生产环境中部署了Atlas,超过800人已加入了我们的开发者交流群,并且这些数字还在不断增加。


       Atlas名字的由来:


       Atlas希腊神话中双肩撑天的巨人,普罗米修斯的兄弟,最高大强壮的神之一,因反抗宙斯失败而被罚顶天360期望这个系统能够脚踏后端DB,为前端应用撑起一片天。


        Why Atlas?


        mysql-proxy是官方提供的mysql中间件产品可以实现负载平衡,读写分离,failover等,但其不支持大数据量的分库分表且性能较差。


      

        Atlas相对于官方MySQL-Proxy的优势

            1.将主流程中所有Lua代码用C重写,Lua仅用于管理接口

            2.重写网络模型、线程模型

            3.实现了真正意义上的连接池

            4.优化了锁机制,性能提高数十倍



        Atlas架构设计:


        Atlas是一个位于应用程序与MySQL之间中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。

     

         


          Atlas功能特点及常见问题:

1.Atlas是否支持多字符集?

对多字符集的支持是我们对原版MySQL-Proxy的第一项改进,符合国情是必须的。并且支持客户端在连接时指定默认字符集。

2.Atlas是否支持事务操作?

支持,且处于事务状态的客户端中途退出时,Atlas会销毁该客户端使用的连接,让后台的mysql回滚事务,保证了事务的完整性。

3.自动读写分离挺好,但有时候我写完马上就想读,万一主从同步延迟怎么办?

SQL语句前增加 /*master*/ 就可以将读请求强制发往主库。在mysql命令行测试该功能时,需要加-c选项,以防mysql客户端过滤掉注释信息。

4.主库宕机,读操作受影响么?

在Atlas中读操作不受影响,Atlas会将读请求转发到其他还存活的从库上。但此时写请求将会失败,因为主库宕机了。

5.检测后端DB状态会阻塞正常请求么?

不会, atlas中检测线程是异步进行检测的,即使有db宕机,也不会阻塞主流程。在Atlas中没有什么异常会让主流程阻塞。

6.想下线一台DB, 又不想停掉mysql server, 怎么办?

可以通过管理接口手动上下线后端db, Atlas会优先考虑管理员的意愿。

7.想给集群中增加一台DB, 不想影响线上正常访问可以吗?

通过管理接口可以轻松实现。

8.相比官方mysql-proxy, Atlas还有哪些改进?

A: 这实在是个难以回答的问题,性能,稳定性,可靠性,易维护性,我们做过几十项的改进,下面会尽量列一些较大的改动

9.Atlas支持mysql的prepare特性吗?

目前Atlas部分支持prepare功能,支持java,python,PHP(PDO方式)。

10.Altas支持多个主库的运行模式吗?

目前还未对于Atlas后面挂接多个主库的情形进行测试过,不建议这样使用。建议使用一主一从或一主多从的模式。

11.在使用Atlas的过程中,发现了Atlas存在的bug或者对Atlas有新的功能需求,如何反馈给开发者?

对于用户反馈的bug,我们非常重视。欢迎用户将bug的复现的环境、步骤和运行截图发邮件至zhuchao[AT]360.cn。同时如果用户在实际的应用场景中,对Atlas有新的功能需求,也可以向我们发邮件,我们将及时回复。另外有热心网友建了QQ群326544838,开发者也已经加入,方便讨论。

12.java程序连接Atlas出现乱码问题

把jdbc连接中的amp;删除掉,例如:将

jdbc:mysql://10.10.10.37:3306/user_db?useUnicode=true&characterEncoding=utf-8&autoReconnect=true
修改为:

jdbc:mysql://10.10.10.37:3306/user_db?useUnicode=true&characterEncoding=utf-8&autoReconnect=true

13.监控主从同步之间的延迟?

Atlas不负责MySQL的主从同步操作,需要DBA自己管理。

14.java程序连接Atlas发现不能读写分离,所有的请求都发向主库,这是为什么?

检查一下java框架,是不是默认将autocommit设置为0了,很多java框架将语句都封装在一个事务中,而Atlas会将事务请求都发向主库。

15.Atlas有sql语句黑名单过滤机制吗?

有的,Atlas会屏蔽不带where条件的delete和update操作,以及sleep函数。


         

       

       

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
7月前
|
算法 索引
阿里云 Elasticsearch 使用 RRF 混排优化语义查询结果对比
Elasticsearch 从8.8版本开始,新增 RRF,支持对多种不同方式召回的多个结果集进行综合再排序,返回最终的排序结果。之前 Elasticsearch 已经分别支持基于 BM25 的相关性排序和向量相似度的召回排序,通过 RRF 可以对这两者的结果进行综合排序,可以提升排序的准确性。
1533 0
|
1月前
|
存储 分布式数据库 Apache
记录级别索引:Apache Hudi 针对大型数据集的超快索引
记录级别索引:Apache Hudi 针对大型数据集的超快索引
32 2
|
6月前
|
存储 消息中间件 NoSQL
ElasticSearch - 海量数据索引拆分的一些思考
ElasticSearch - 海量数据索引拆分的一些思考
393 0
|
11月前
|
存储 NoSQL Oracle
「时序数据库」使用cassandra进行时间序列数据扫描
「时序数据库」使用cassandra进行时间序列数据扫描
|
存储 负载均衡 并行计算
图数据库中的“分布式”和“数据切分”(切图)
什么是分布式系统?为什么需要分布式系统呢?在本文,我们简单讲解下分布式内容,再快速切入的图数据库,了解图数据库的独有数据切分方式,以及各大图数据库产品是如何处理切图的/
261 0
|
存储 索引
67.【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
67.【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
|
存储 关系型数据库 数据库
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据
205 0
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据
|
SQL 存储 NoSQL
分布式 PostgreSQL 集群(Citus),分布式表中的分布列选择最佳实践
分布式 PostgreSQL 集群(Citus),分布式表中的分布列选择最佳实践
487 0
分布式 PostgreSQL 集群(Citus),分布式表中的分布列选择最佳实践
|
分布式计算 Hadoop
Lucene/Solr 分布式与实时方案收集
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
96 0
|
存储 JSON 算法
基于HBase构建千亿级文本数据相似度计算与快速去重系统
前言 随着大数据时代的到来,数据信息在给我们生活带来便利的同时,同样也给我们带来了一系列的考验与挑战。本文主要介绍了基于 Apache HBase 与 Google SimHash 等多种算法共同实现的一套支持百亿级文本数据相似度计算与快速去重系统的设计与实现。该方案在公司业务层面彻底解决了多主题海量文本数据所面临的存储与计算慢的问题。 一. 面临的问题 1. 如何选择文本的相似度计算或去重算法? 常见的有余弦夹角算法、欧式距离、Jaccard 相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,但在海量数据背景下,如果每天产生的数据以千万计算,我们如何对于这些海
654 0