这样分析一个死锁问题

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:   之前也列举了几期的MySQL死锁问题,光有操作演练,还缺少一些自己的分析,所以我就打算补充一下。    首先对于死锁问题,我们分析的背景是基于MySQL事务隔离级别为RR,存储引擎为InnoDB,在MySQL 5.6,5.7版本均可复现问题。

  之前也列举了几期的MySQL死锁问题,光有操作演练,还缺少一些自己的分析,所以我就打算补充一下。

   首先对于死锁问题,我们分析的背景是基于MySQL事务隔离级别为RR,存储引擎为InnoDB,在MySQL 5.6,5.7版本均可复现问题。

   怎么来分析一个死锁问题呢,我一直在琢磨这个问题,自己也总结了不少出现的场景,但是感觉还是有一些欠缺或者不完善的地方。那么我们就换一个思路来分析死锁问题,通过日志来反推死锁产生的可能场景,然后依次深入,扩展,这样一来,这个问题的分析就带有通过很多不确定性分析判断,得到确定性的结果,然后分析和预期一致,这个问题就算基本搞明白了。

   所以在此我不给出表结构,只给出死锁的日志来。这样一段日志,是在MySQL设置了死锁检测,输出日志的参数后得到的。

   通过一段死锁日志来挖掘一些有价值的信息。

   整个死锁的日志分为了两个事务,Transaction 1和Transaction 2,这里需要指出的是,这其实是发生死锁的临界状态的事务信息,就好似一个印章。我们看到的是最后得到的一个状态信息(类似盖上印章的一瞬间),而完整的过程是没法通过日志体现出来的,还有一个,如果仔细看上面的日志就会发现,事务1的日志还是不够完整,持有的锁,等待的锁,只打印出了等待的锁,有很多业内朋友是通过修改内核代码来把这个信息补充完整的。

0

  但是发生死锁的时候是有两个事务互相阻塞,循环形成死锁,我们就依次来分析两个事务的日志信息。

  事务1的日志信息如下,我们可以看到整个事务持续(阻塞)了46秒钟,很快就会达到触发超时的阈值,涉及的表有1个(tables in use 1),有2个锁(一个表级意向锁,一个行锁)语句为: delete from dtest1 where num=10,,加锁的对象是索引num,这个唯一的行锁处于等待状态(WAITING FOR THIS LOCK TO BE GRANTED),相关的锁等待为(lock_mode X waiting,next key锁)。

*** (1) TRANSACTION:
TRANSACTION 2844, ACTIVE 46 sec starting index read
mysql tables in use 1, locked 1
LOCK WAIT 2 lock struct(s), heap size 1136, 1 row lock(s)
MySQL thread id 5, OS thread handle 140582228653824, query id 55 localhost root updating
delete from dtest1 where num=10
2017-09-11T10:07:08.103195Z 6 [Note] InnoDB: *** (1) WAITING FOR THIS LOCK TO BE GRANTED:

RECORD LOCKS space id 34 page no 4 n bits 72 index num of table `test`.`dtest1` trx id 2844 lock_mode X waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 8000000a; asc     ;;
 1: len 4; hex 8000000a; asc     ;;


再来看看第二个事务,内容略长一些。可以看到分为两部分内容,一部分是持有的锁(HOLDS THE LOCK),锁模式为(lock_mode X locks rec but not gap,no gap lock),另一部分是等待的锁,锁模式为(lock mode S waiting)

2017-09-11T10:07:08.103243Z 6 [Note] InnoDB: *** (2) TRANSACTION:

TRANSACTION 2843, ACTIVE 92 sec inserting
mysql tables in use 1, locked 1
4 lock struct(s), heap size 1136, 3 row lock(s), undo log entries 2
MySQL thread id 6, OS thread handle 140582228387584, query id 58 localhost root update
insert into dtest1 values(11,10)
2017-09-11T10:07:08.103260Z 6 [Note] InnoDB: *** (2) HOLDS THE LOCK(S):
RECORD LOCKS space id 34 page no 4 n bits 72 index num of table `test`.`dtest1` trx id 2843 lock_mode X locks rec but not gap
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 8000000a; asc     ;;
 1: len 4; hex 8000000a; asc     ;;
2017-09-11T10:07:08.103301Z 6 [Note] InnoDB: *** (2) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 34 page no 4 n bits 72 index num of table `test`.`dtest1` trx id 2843 lock mode S waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 8000000a; asc     ;;
 1: len 4; hex 8000000a; asc     ;;

2017-09-11T10:07:08.103348Z 6 [Note] InnoDB: *** WE ROLL BACK TRANSACTION (1)

   大体我们得到了这样的信息,一个事务等待的行锁模式为next key lock,另外一个事务持有record lock,等待的锁为S锁,出现S锁看来是一个突破口,我们就需要明白为什么会是S锁,事务2中相关的SQL是insert语句,如果需要进行唯一性冲突检查的时候,是需要先加一个S锁,所以由此我们可以进一步推理出这个Num对应的索引是一个唯一性索引。

  由此我们可以进一步分析,何时得到这个S锁,肯定是在另外一个事务(也可能是其他的事务,比一定是事务1)中会去触发,在事务2中才会持有一个S锁,所以这样一来insert之前是有一个事务在做一个和唯一性索引相关的操作,我们理一下。

  事务1相关的SQL:

   delete from dtest1 where num=10

  事务2相关的SQL:

   insert into dtest1 values(11,10)

  根据持有的S锁我们可以猜测可能是在事务2之前有一个DML操作阻塞了唯一性索引,我们假设为insert或者delete操作(限定下范围),进一步限定是两个会话中的事务,下面的分析就很重要了。

   事务2中的持有的S锁,我们可以从下往上去推理,事务1上面肯定是一个delete操作,也就是日志中的第一部分显示,是一个delete操作。

   按照这个方向往下去想,整个死锁的场景应该是下面这样的。

   事务2:

   insert/delete操作待分析

   事务1:

   delete from dtest1 where num=10;

   事务2:

   insert into dtest1 values(11,10);

  如果在事务2中先做的是一个insert操作,显然在事务2中会直接抛出duplicate的报错,所以此处在insert,delete中只能是delete的操作,

   所以整个死锁的过程真实的情况就是:

   事务2:

   delete from dtest1 where num=10;  --record lock

   事务1:

   delete from dtest1 where num=10;   --申请X锁,进入锁请求队列

   事务2:

   insert into dtest1 values(11,10);  --申请S锁,产生了循环等待。

  这个过程也是抛砖引玉,希望大家提出更多的想法。建表语句为:

create table dtest1 (id int primary key,num int unique);



  


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
8月前
关于死锁的原因及解决方案
关于死锁的原因及解决方案
92 0
|
13天前
|
监控 算法 安全
Java并发编程案例分析:死锁的检测与解决
【4月更文挑战第6天】Java并发编程中的死锁导致线程僵持,资源无法释放,影响程序性能。死锁涉及互斥、请求与保持、不剥夺和循环等待四个条件。案例分析展示了银行转账场景下的死锁可能。检测死锁可通过日志、代码审查和使用工具。解决策略包括避免死锁(如设定锁顺序、超时机制)和处理死锁(如终止线程、资源抢占)。理解死锁原理并采取预防措施对构建稳定、高效的多线程应用至关重要。
|
3月前
|
算法
死锁的一点分析
死锁的一点分析
|
9月前
什么是死锁?产生死锁的原因?产生死锁的四个必要条件?死锁的避免与预防?
什么是死锁?产生死锁的原因?产生死锁的四个必要条件?死锁的避免与预防?
157 0
|
4月前
|
算法 安全
解决死锁的方法
解决死锁的方法
|
5月前
|
算法 安全 Java
死锁的原理
之前在学校学习过程中,很少写多进程的代码,虽然操作系统中学过死锁相关的内容,但考试过后也基本就忘记了,后来自己也遇到过有些多进程死锁的情况,再加上看了有些资料,对死锁才算是有了有些深入的理解。
49 0
|
调度
死锁的四个必要条件及避免策略
死锁的四个必要条件及避免策略
253 0
死锁的四个必要条件及避免策略
|
算法 Unix Linux
什么是死锁
什么是死锁
101 0
|
SQL 关系型数据库 MySQL
死锁分析
最近新项目上线,在压测和发布生产都出现了好几种死锁情况,分析一二
169 0
死锁分析
|
Java 程序员
一个多线程死锁案例,如何避免及解决死锁问题?
多线程死锁在java程序员笔试的时候时有遇见,死锁概念在之前的文章有介绍,大家应该也都明白它的概念,不清楚的去翻看历史文章吧。
175 0
一个多线程死锁案例,如何避免及解决死锁问题?