【阿里在线技术峰会】罗龙九:云数据库十大经典案例分析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 在阿里巴巴在线峰会上的第二天,来自阿里云资深DBA专家罗龙九给大家带来了题为《云数据库十大经典案例分析》的分享。罗龙九以MySQL数据库为例,分析了自RDS成立至今,用户在使用RDS过程中最常见的问题,包括:索引、SQL优化、锁、延迟、参数优化、连接数、CPU、Iops、磁盘、内存等。

本文根据阿里云资深DBA专家罗龙九在首届阿里巴巴在线峰会的《云数据库十大经典案例分析》的分享整理而成。罗龙九以MySQL数据库为例,分析了自RDS成立至今,用户在使用RDS过程中最常见的问题,包括:索引、SQL优化、锁、延迟、参数优化、连接数、CPU、Iops、磁盘、内存等。罗龙九通过对十大经典案例的总结,还原问题原貌,给出分析问题的思路,旨在帮助用户在使用RDS的路上少一些弯路,多一些从容。


直播视频


(点击图片查看视频)

幻灯片下载:点此进入


以下为整理内容。


案例一:索引


今天之所以将索引放在第一位进行分享,是因为索引的问题出现频率是最高的。常见的索引问题包括:无索引、隐式转换两类。其中隐式转换是由SQL传入的值和表结构定义的数据类型不一致引起;或者是表字段定义collation不一致导致多表join的时候出现隐式转换。无索引的情况会导致全表扫描;隐式转换会导致索引无法正常使用。


在使用索引时,我们可以通过explain(extended)查看SQL的执行计划,判断是否使用了索引以及发生了隐式转换。由于常见的隐式转换是由字段数据类型以及collation定义不当导致,因此我们在设计开发阶段,要避免数据库字段定义,避免出现隐式转换。此外,由于MySQL不支持函数索引,在开发时要避免在查询条件加入函数,例如date(gmt_create)。最后,所有上线的SQL都要经过严格的审核,创建合适的索引。

 

案例二:SQL优化


SQL优化是很多使用者都需要面对的问题。我们在不断地优化、调试过程中总结了三类SQL优化的最佳实践,分别是分页优化、子查询优化、查询需要的字段。

分页优化


select * from buyer where sellerid=100 limit 1000005000
AI 代码解读

这条语句是普通的Limit M、N的翻页写法,在越往后翻页的过程中速度越慢,这是由于MySQL会读取表M+N条数据,M越大,性能越差。

我们通过采用高效的Limit写法,可以将上述语句改写成:


select t1.* from buyer t1, 
(select id from buyer sellerid=100 limit 1000005000) t2 
where t1.id=t2.id; 
AI 代码解读

从而避免分页查询给数据库带来性能影响。需要注意一点是,这里需要在t表的sellerid字段上创建索引,id为表的主键。

子查询优化

子查询在MySQL5.1、5.5版本中都存在较大的风险。这是一段典型子查询SQL代码:


SELECT first_name 
FROM employees 
WHERE emp_no IN 
(SELECT emp_no FROM salaries_2000 WHERE salary = 5000); 
AI 代码解读


由于MySQL的处理逻辑是遍历employees表中的每一条记录,代入到子查询中去 。所以当外层employees表越大时,循环次数也随之增多,从而导致数据库性能的下降。

这是我们改写子查询之后的SQL代码:


SELECT first_name
FROM employees emp,
(SELECT emp_no FROM salaries_2000 WHERE salary = 5000) sal
WHERE emp.emp_no = sal.emp_no;
AI 代码解读


首先将子查询的结果放到临时表内,再去和employees表做关联。此外,使用者也可以选择使用Mysql 5.6的版本,避免麻烦的子查询改写。

查询需要的字段

在访问数据库时,应该尽量避免使用SELECT *查询所有字段数据,只查询需要的字段数据。

 

案例三:锁


在使用数据库时,每个人或多或少都会碰到锁的问题。在设计开发阶段,我们需要注意这三点问题:一是避免使用myisam存储引擎,改用innodb引擎;二是注意避免大事务,这是因为长事务导致事务在数据库中的运行时间加长,造成锁等待;三是选择将数据库升级到支持online ddl的MySQL 5.6版本。

在管理运维阶段,我们可以从四点出发搞定锁的问题:

  1. 在业务低峰期执行上述操作,比如创建索引,添加字段;
  2. 在结构变更前,观察数据库中是否存在长SQL,大事务;
  3. 结构变更期间,监控数据库的线程状态是否存在lock wait
  4. RDS支持在DDL变更中加入 wait timeout

案例四:延迟


由于数据库架构大多是主备的方式,延迟便成了一个常见的问题。产生延迟的原因有很多,例如在只读实例架构中,主备节点间MySQL原生复制实现数据同步方式会天然导致延迟的产生。此外,create index、repair等常见DDL操作、大事务、MDL锁以及资源问题都会导致延迟的出现。


处理延迟问题,需要具有清晰的排除思路:一看资源是否达到瓶颈;二看线程状态是否有锁;三判断是否存在大事务。同时我们还可以通过使用innodb存储引擎、将大事务拆分为小事务、DDL变更期间观察是否有大查询等具体最佳实践降低延迟。

 

案例五:参数优化


我们曾经遇到这样一个案例,某金融客户在将本地的业务系统迁移上云后,在最高配置的RDS上运行时间明显要比线下自建数据库运行时间慢1倍,进而导致客户系统出现割接延期的风险。对于这类案例的分析,根据以往的经验,可以从以下三点出发:

  1. 首先查看数据库是否是跨平台迁移(PG->MySQLORALCE->MySQL);
  2. 其次查看是否是跨版本升级(MySQL:5.1->5.55.5->5.6),不同的版本之间是有差异的;
  3. 如果上述两点都不存在,则需要查看具体的执行计划、优化器、参数配置、硬件配置。


如果SQL从云下迁移到云上或者从一个版本迁移到另一个版本的过程中出现性能问题时,要保持清晰的排查思路:从SQL执行计划到数据库版本和优化器规则,再到参数(包括Query_cache_size、Temp_table_size)配置和硬件配置等一一进行排查。曾经看到这样一个案例,一个用户使用默认的mysql配置跑线上应用,db所在的主机的内存有500G,但是分配给MySQL的内存确是默认的128M,导致了整个系统的性能下降。

 

案例六:CPU 100%最佳实践


导致CPU 100%的三大因素分别是:慢SQL、锁和资源。对于慢SQL问题:我们可以通过优化索引或者通过避免子查询、隐式转换以及进行分页改写等措施从根上解决该问题。对于锁等待问题:可以通过设计开发和管理运维优化锁等待。对于资源问题:可以通过参数优化、弹性升级、读写分离、数据库拆分等方式优化。


案例七:Conm 100%


导致Conm 100%的三大因素分别是慢SQL、锁、配置。对于慢SQL问题:解决方案类似于处理CPU 100%,同样是通过优化索引或者通过避免子查询、隐式转换以及进行分页改写等措施从根上解决该问题。对于锁等待问题:同样可以通过设计开发和管理运维优化锁等待。对于配置问题:我们需要合理规划数据库上的连接数的使用,避免客户端连接池参数配置超过实例最大连接数的情况出现。此外,还可以通过弹性升级RDS的规格配置来满足客户端需要的连接数。

 

案例八:Iops 100%


Iops 100%也是一个很常见的问题。导致Iops 100%的原因也可以分为慢SQL问题、DDL、配置问题三类。对于慢SQL问题:解决方案同样类似于处理CPU 100%问题,通过优化索引或者通过避免子查询、隐式转换以及进行分页改写等措施从根上解决该问题。对于DDL问题:一定要避免并发进行create index、optimze table、alter table add column等操作;同时这些操作最好在业务低峰期进行。对于配置问题:可以通过弹性升级RDS的规格配置解决。

 

案例九:disk 100%


磁盘空间由数据文件、日志文件和临时文件组成。对于数据空间问题:由于数据文件的索引和数据是放在一起的,当对表删除数据后可以采用optimize table收缩表空间,同时删除不必要的索引;对于写多读少的应用,可以使用tokudb压缩引擎进行表压缩。对于日志空间问题:首先我们需要减少大字段的使用;其次可以使用truncate替代delete from。对于临时空间问题:一是可以适当地调大sort_buffer_size;二是可以创建合适索引避免排序。

 

案例十:mem 100%


当内存使用率达到100%时,操作系统会kill掉MySQL进程,从而导致业务的中断。因此,我们需要明确地了解数据库的内存使用详情。数据库内存主要由Buffer pool size 、Dictionary memory、Thread cost memory三部分组成。对于Buffer pool size问题:首先,我们可以通过创建合适的索引,避免大量的数据扫描;其次,我们需要去除不必要的索引,降低内存的消耗。对于Thread cost memory问题:一方面,我们可以通过创建合适的索引避免排序;另一方面,在查询数据时,我们只查询应用所需的数据,避免所有数据的查询。对于Dictionary memory问题:当表被访问打开后其元数据信息是存储在Dictionary memory之中的,过度的分表会导致内存的大量占用,因此分表时要注意把握分寸,不多过度分表,曾经看到一个数据库中创建了十几万张表。


关于分享嘉宾:

罗龙九,阿里云资深DBA专家,有着丰厚的DBA经验,经历阿里历年双11考验,负责阿里云RDS线上稳定以及专家服务团队,积累了6年对阿里云数据库用户的运维、调优、诊断等丰富的经验。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
数据库数据恢复——sql server数据库被加密的数据恢复案例
SQL server数据库数据故障: SQL server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。 数据库备份被加密,文件名字被篡改。
数据库数据恢复——MongoDB数据库服务无法启动的数据恢复案例
MongoDB数据库数据恢复环境: 一台Windows Server操作系统虚拟机上部署MongoDB数据库。 MongoDB数据库故障: 管理员在未关闭MongoDB服务的情况下拷贝数据库文件。将MongoDB数据库文件拷贝到其他分区后,对MongoDB数据库所在原分区进行了格式化操作。格式化完成后将数据库文件拷回原分区,并重新启动MongoDB服务。发现服务无法启动并报错。
服务器数据恢复—云服务器上mysql数据库数据恢复案例
某ECS网站服务器,linux操作系统+mysql数据库。mysql数据库采用innodb作为默认存储引擎。 在执行数据库版本更新测试时,操作人员误误将在本来应该在测试库执行的sql脚本在生产库上执行,导致生产库上部分表被truncate,还有部分表中少量数据被delete。
92 25
数据库数据恢复—SQL Server报错“错误 823”的数据恢复案例
SQL Server数据库附加数据库过程中比较常见的报错是“错误 823”,附加数据库失败。 如果数据库有备份则只需还原备份即可。但是如果没有备份,备份时间太久,或者其他原因导致备份不可用,那么就需要通过专业手段对数据库进行数据恢复。
虚拟化数据恢复—误还原快照导致虚拟机上数据库丢失的数据恢复案例
虚拟化数据恢复环境&故障: vmfs文件系统,存储的数据是SqlServer数据库及其他办公文件。 工作人员误将快照还原,导致了SqlServer数据库数据的丢失,需要恢复原来的SqlServer数据库文件。
94 22
数据库数据恢复——MySQL简介和数据恢复案例
MySQL数据库数据恢复环境&故障: 本地服务器,安装的windows server操作系统。 操作系统上部署MySQL单实例,引擎类型为innodb,表空间类型为独立表空间。该MySQL数据库没有备份,未开启binlog。 人为误操作,在用Delete命令删除数据时未添加where子句进行筛选导致全表数据被删除,删除后未对该表进行任何操作。
数据库数据恢复—MongoDB数据库迁移过程中丢失文件的数据恢复案例
某单位一台MongoDB数据库由于业务需求进行了数据迁移,数据库迁移后提示:“Windows无法启动MongoDB服务(位于 本地计算机 上)错误1067:进程意外终止。”
SqlServer数据恢复—SqlServer数据库所在分区损坏的数据恢复案例
一块硬盘上存放的SqlServer数据库,windows server操作系统+NTFS文件系统。由于误操作导致分区损坏,需要恢复硬盘里的SqlServer数据库数据。
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
GBase8a 数据库集群v953扩容案例问题分享
GBase8a 数据库集群v953扩容案例问题分享

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等