HIVE优化浅谈

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

HIVE优化浅谈

开源大数据EMR 2019-08-30 16:06:45 浏览1075
展开阅读全文

作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。


引言

随着商务/运营同学执行的HQL越来越多,整体HIVE执行效率变低,本文从HIVE切入,分析HQL面临的问题和待优化部分,结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议.


常见的HQL
select型
设置hive.fetch.task.conversion=none会以集群模式运行,无论是否有limit。在数据量小时建议使用hive.fetch.task.conversion=more,此时select配合limit以单机执行获取样本数据,执行更快

常见的select配合order by/group by等基本操作不



网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)