最近在做hadoop集群的容量数据,主要依据zabbix的监控数据,因为要计算impala的内存使用情况,就使用了下面的sql
1
2
3
4
5
6
7
|
select
a.host,
avg
(b.value)
from
(
select
a.host,b.itemid,b.key_
from
hosts a,items b
where
a.hostid=b.hostid
and
a.host
like
'%hadoop-datanode%'
and
b.key_=
'impala.get[mem]'
)a
join
(
select
itemid,clock,value
from
history) b
on
a.itemid=b.itemid
and
b.clock
between
unix_timestamp(
'2014-02-28 00:00:00'
)
and
unix_timestamp(
'2014-03-06 00:00:00'
)
group
by
a.host;
|
在使用explain时发现巨慢,一个生成执行计划的操作都这么慢?
考虑到sql的性能优化,就把上面的查询写成了3个表的join:
1
2
3
4
5
6
7
|
select
a.host,
avg
(c.value)
from
hosts a,items b,history c
where
a.hostid=b.hostid
and
a.host
like
'%hadoop-datanode%'
and
b.key_=
'impala.get[mem]'
and
b.itemid=c.itemid
and
c.clock
between
unix_timestamp(
'2014-02-28 00:00:00'
)
and
unix_timestamp(
'2014-03-06 00:00:00'
)
group
by
a.host;
|
这样性能就好多了。。
其实这是explain的一个bug,在使用subquery时,explain会在后台执行这个sql,这样explain的时间就差不多是sql运行的时间了。。。
看来自己的sql写得太烂了,以后还是要多多的explain啊。。。
本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1369797,如需转载请自行联系原作者