MySQL运维实战之价值一个亿的GTID监控

2019-05-28 2721

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL Serverless，0.5-2RCU 50GB

简介： 一、背景现在的MySQL可谓是拿着望远镜也找不到对手，其中有一个非常大的特性就是GTID GTID的原理这篇文章不再展开，有兴趣的同学可以关注之前的GTID原理，GTID实战，GTID运维实战文章。

一、背景

GTID的原理这篇文章不再展开，有兴趣的同学可以关注之前的GTID原理，GTID实战，GTID运维实战文章。

如果每个实例的GTID相同，那么可以大概率说明数据的一致性。

所以，我们要保证slave的GTID一定是master的子集，因为基于复制原理，slave一般是延后master的。

于是，我们就实现了一个监控，如果slave不是master的子集，那么告警出来，截图如下：

上图列出的GTID就是有问题的，不是master的子集。

一开始，这么做主要是处于自己的洁癖，以及对规范的强要求和依赖。
后来有好多小朋友跟我说，这个监控没有任何意义：

1） slave切换下，就不一致了
2) 即便不是子集，在slave进行了操作，比如：flush 等操作，只要不影响数据一致性，也没关系的

balabala好多类似的理由。
当时，我也没有太好的利用说服，只能自己负责的业务默默遵从。

后来再仔细想想GTID的原理，结合实战，对这个监控有了新的认识

二、故障复现和原理剖析

先简单说说结论：

如果candidate master的非子集GTID对应的binlog日志被purge了，那么MHA切换的时候，会导致从库IO线程失败。

报错如下：

Last_IO_Errno: 1236
Last_IO_Error: Got fatal error 1236 from master when reading data from binary log: 
                'The slave is connecting using CHANGE MASTER TO MASTER_AUTO_POSITION = 1,
                but the master has purged binary logs containing GTIDs that the slave requires.'

故障复现的步骤：

candidate master： flush slow logs； --产生一些非子集的gtid event
candidate master： purge binary logs to xx --将刚刚产生的非子集gtid所在的binlog给删除掉
master ：模拟切换
报错产生

原理剖析：

a) 当备选master晋升为new master时，其他的实例会获取cm_uuid:1这个gtid
b）如果cm_uuid:1 已经被purge了，那么就会报错。

回到开头，为什么说这个监控价值一个亿呢？

如果slave没有业务，其实问题不大。
如果slave 有业务呢，现在很多架构是读写分离的，如果不能及时修复主从关系，那么延迟的数据造成的损失就不能简简单单的钱来衡量了。

三、解决方案

方案其实很简单: 巡检出问题，修复问题，最终一定要保证slave是master的子集。
如果修复gtid呢：如果确定slave上的gtid不影响数据的一致性，那么可以手动reset gtid来修复即可。

四、Q&A

Q1：通过在slave 设置 read_only 可以避免吧。
A1: 因为flush 命令，是可以绕过read only并产生binlog的。

Q2：假如从库start slave失败，我也可以手动修复吧。
A2：
如果只是切换一次，我相信你可以，如果切换5次，10次呢。
如果只是今天早slave操作了，你姑且可以记住。如果是半年前的操作呢？你怎么确定这个日志是可以skip的？

Q3：从库的binlog怎么会被purge呢？
A3：这个一般互联网公司的binlog日志，在线不会保留太长时间，保留1个月已经算是谢天谢地了。即便不是人为的purge，也会通过expire_logs来删掉的。

这个原理非常简单，但是越简单的事情却不容易做到。

相关实践学习

基于CentOS快速搭建LAMP环境

本教程介绍如何搭建LAMP环境，其中LAMP分别代表Linux、Apache、MySQL和PHP。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

MySQL运维实战之价值一个亿的GTID监控

一、背景

二、故障复现和原理剖析

三、解决方案

四、Q&A

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

MySQL运维实战 之 价值一个亿的GTID监控

一、背景

二、故障复现和原理剖析

三、解决方案

四、Q&A

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

MySQL运维实战之价值一个亿的GTID监控