MySQL rpl_semi_sync_master_timeout相关的一件BUG

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 1.背景 部署基于MySQL原生复制的HA系统时,发现在半同步模式下,半同步复制降级为异步复制的超时时间如果设得很长,会严重影响性能高,这是个很奇怪的现象。 2.现象 组合不同参数,用sysbench做压力测试。

1.背景

部署基于MySQL原生复制的HA系统时,发现在半同步模式下,半同步复制降级为异步复制的超时时间如果设得很长,会严重影响性能高,这是个很奇怪的现象。


2.现象

组合不同参数,用sysbench做压力测试。

sysbench --db-driver=mysql  --mysql-db=test2 --mysql-host=srdsdevapp69  --mysql-table-engine=innodb --oltp-table-size=5000000 --num-threads=10 --max-time=10 --max-requests=0 --oltp-test-mode=complex --oltp-read-only=off --test=/opt/sysbench-0.5/sysbench/tests/db/insert.lua  run


结果如下:

rpl_semi_sync_master_enabled rpl_semi_sync_master_timeout qps 备注
on 21474836480 13.99 248天
2147483648 196.3 24.8天
214748364 1251.67 约2.5天
86400000 2146.96 1天
43200000 3211.17 12小时
21600000 3583.02 6小时
10000 3637.16 10秒(默认值)
off - 8926.76  


3. 原因

从上面的表不难看出,当rpl_semi_sync_master_timeout很大时,每个查询的执行时间和rpl_semi_sync_master_timeout成正比。

为什么会出现这么奇葩的事?翻开MySQL的代码,立刻真相大白!


plugin\semisync\semisync_master.cc:

点击(此处)折叠或打开

  1. #define TIME_THOUSAND 1000            
  2. #define TIME_MILLION 1000000    
  3. #define TIME_BILLION 1000000000
  4. ...
  5. int ReplSemiSyncMaster::commitTrx(const char* trx_wait_binlog_name,
  6.                   my_off_t trx_wait_binlog_pos)
  7. {
  8. ...
  9.       unsigned long long diff_nsecs =
  10.         start_ts.tv_nsec + (unsigned long long)wait_timeout_ * TIME_MILLION;
  11.       abstime.tv_sec = start_ts.tv_sec;
  12.       while (diff_nsecs >= TIME_BILLION)//这个while循环是罪魁祸首!!!
  13.       {
  14.         abstime.tv_sec++;
  15.         diff_nsecs -= TIME_BILLION;
  16.       }
  17.       abstime.tv_nsec = diff_nsecs;
  18. ...
  19. }

上面有个while循环,循环次数等于rpl_semi_sync_master_timeout对应的秒数,也就是说,如果设置成300天的话,要循环25920000次,不慢才怪!



4. 修复

把那段代码中的while替换等价的写法后,问题解决。测出的qps在3700左右,和rpl_semi_sync_master_timeout无关。

4.1 修改代码

plugin\semisync\semisync_master.cc:

点击(此处)折叠或打开

  1. # diff plugin/semisync/semisync_master.cc plugin/semisync/semisync_master.cc_bak
  2. 687,688c687,688
  3. start_ts.tv_nsec + ((unsigned long long)wait_timeout_ % TIME_THOUSAND) * TIME_MILLION;
  4. abstime.tv_sec = start_ts.tv_sec + (unsigned long long)wait_timeout_ / TIME_THOUSAND;
  5. ---
  6. > start_ts.tv_nsec + (unsigned long long)wait_timeout_ * TIME_MILLION;
  7. > abstime.tv_sec = start_ts.tv_sec;


4.2 编译

cmake -DCMAKE_INSTALL_PREFIX=/usr/local/mysql -DMYSQL_DATADIR=/usr/local/mysql/data -DSYSCONFDIR=/etc -DWITH_MYISAM_STORAGE_ENGINE=1 -DWITH_INNOBASE_STORAGE_ENGINE=1 -DWITH_MEMORY_STORAGE_ENGINE=1 -DWITH_READLINE=1 -DMYSQL_UNIX_ADDR=/var/lib/mysql/mysql.sock -DMYSQL_TCP_PORT=3306 -DENABLED_LOCAL_INFILE=1 -DWITH_PARTITION_STORAGE_ENGINE=1 -DEXTRA_CHARSETS=all -DDEFAULT_CHARSET=utf8 -DDEFAULT_COLLATION=utf8_general_ci -DWITH_FAST_MUTEXES=1
 
make

注:上面的编译选项填的比较随意,从网上随便抄了后再改的,只求编译通过。

4.3 拷贝半同步插件

chown mysql:mysql  ./plugin/semisync/semisync_master.so
cp -rf ./plugin/semisync/semisync_master.so /usr/local/mysql/lib/mysql/plugin/semisync_master.so
cp -rf ./plugin/semisync/semisync_master.so /usr/local/mysql/lib/plugin/semisync_master.so


4.4 重启MySQL

5. 补充

该Bug已报告到MySQL官方网站,http://bugs.mysql.com/80651

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
0
0
0
50
分享
相关文章
(十八)MySQL排查篇:该如何定位并解决线上突发的Bug与疑难杂症?
前面《MySQL优化篇》、《SQL优化篇》两章中,聊到了关于数据库性能优化的话题,而本文则再来聊一聊关于MySQL线上排查方面的话题。线上排查、性能优化等内容是面试过程中的“常客”,而对于线上遇到的“疑难杂症”,需要通过理性的思维去分析问题、排查问题、定位问题,最后再着手解决问题,同时,如果解决掉所遇到的问题或瓶颈后,也可以在能力范围之内尝试最优解以及适当考虑拓展性。
564 3
【Bug解决】Thinkphp5 PDO::__construct(): MySQL server has gone away解决办法
【Bug解决】Thinkphp5 PDO::__construct(): MySQL server has gone away解决办法
211 0
故障案例:MySQL唯一索引有重复值,官方却说This is not a bug
故障案例:MySQL唯一索引有重复值,官方却说This is not a bug
328 0
这次被坑惨了,MySQL的隐式转换导致了一个线上BUG
某一天,开发问我,为什么针对一个查询会有两条记录,且其中一条记录并不符合条件select * from tablea where xxno = 170325171202362928;xxno为 170325171202362928 和 170325171202362930的都出现在结果中。 一个等值查询为什么会有另外一个不同值的记录查询出来呢? 我们一起来看看究竟!
MySQL 5.6 change buffer bug导致crash
Insert buffer 内部标识长度的位图没有正确更新,导致问题
204 0
一个诡异的MySQL查询超时问题,居然隐藏着存在了两年的BUG
一个诡异的MySQL查询超时问题,居然隐藏着存在了两年的BUG
208 0
看来,MySQL next-key lock 的 bug 并没有被修复!
在上一篇文章《MySQL next-key lock 加锁范围是什么?》中已经介绍了主键索引的加锁范围,现在来回顾一下
325 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等