一次SQL优化经历-阿里云开发者社区

一次SQL优化经历

2016-04-26 2140

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

最近遇到一个SQL执行很慢。这个SQL比较长，但基本的形态比较简单：

SELECT T1.*, T2.C1 .... FROM T1 LEFT JOIN T2 ON T1.C1 = T2.C1 LEFT JOIN T3 ON T1.C2 = T3.C1 LEFT JOIN T3 ON T1.C3 = T3.C1 ....

执行explain ，直接查看执行计划。发现很多的SeqScan（表扫描）。其中有一个表T3，被反复连接，且每次连接都使用了表扫描：

screenshot

先看看这张表的情况，实际上连接使用的都是C1字段，而这个字段上有索引，为什么没有使用？利用select count(*) from T3，看到此张表的数据量不大（13393），这可能是优化器为选择索引的原因（数据量过小），但也可能是统计信息不准确造成，执行了ANALYZE T3未见变化。（后来发现是这样，当加入LIMIT子句，且limit小于10000时，使用的是索引扫描，否则使用的是表扫描，这是由优化器根据代价评估决定的，并没有问题。）

这里，我们感觉执行计划基本没有问题。

用explain analyze 分析SQL执行过程中，哪个环节耗费了最多时间。直接执行发现长时间得不到结果，所以加入了LIMIT子句，即 explain analyze limit 1000，执行耗时8秒多。查询计划中处理了对T4等表的表扫描，但这些表数据量都不大。仔细查看查询计划中的actual time的变化情况，发现在第二行出现了一个不正常的现象：actual time=11.614..8913.433 。这个数据中，11.614代表输出第一行时所用的时间，8913.433 代码输出所有行的时间，也就是说输出第一行用了11ms，输出1000行用了8.9秒！

screenshot

查看最后一行，发现了原因，这里有个SubPlan，就是每次输出一行前都要计算一下这个SubPlan，而这个Subplan含有对T1的一次表扫描，就是说每次都要对hr_users全部扫描一次，返回1000条结果要扫描1000次T1。hr_users有2万多条记录，即总计扫描2000万左右的记录！

screenshot

查看SQL，发现这个Subplan对应一个SELECT里面的子查询，里面有个条件是WHERE TO_CHAR(T1.C10) = TO_CHAR(TEMP.C20)) ，而我们知道这种TO_CHAR转换容易造成索引无法使用（USER_ID是数字类型）。将这个条件改为：T1.C10 = TO_number(TEMP.C20)) （还需要业务评估是否可以这样改！），上述语句的运行时间由8秒降低至100多ms！！
试着执行explain analyze limit 30000，发现与T2的连接的计划中含有如下提示：

即与T2的连接过滤了很多记录，怀疑是否这个连接是性能瓶颈。而T2是个View，于是试着把这个View的结果插入到一个表中，并建立索引，使用这个表替换T2，发现作用不大。

为了防止统计信息不准确，运行了如下的语句收集查询中涉及的表的统计信息：
T1;
T2;
Analyze T3;
Analyze T4;

上述修改后，大幅降低了原SQL的查询延迟。直接执行这个SQL结果超过数十万行，因此进一步的优化，需要查看这个SQL是如何使用的，根据场景进行优化。

一次SQL优化经历

热门文章

最新文章

相关课程

相关电子书

相关实验场景