HIVE优化浅谈

2019-08-28 1108

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HIVE优化浅谈作者：邓力，entobit技术总监，八年大数据从业经历，由一代HADOOP入坑，深耕云计算应用领域，由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域，对大数据生态及框架应用有深刻理解。

HIVE优化浅谈

作者：邓力，entobit技术总监，八年大数据从业经历，由一代HADOOP入坑，深耕云计算应用领域，由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域，对大数据生态及框架应用有深刻理解。

引言

随着商务/运营同学执行的HQL越来越多，整体HIVE执行效率变低，本文从HIVE切入，分析HQL面临的问题和待优化部分，结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议.

常见的HQL

select型

设置hive.fetch.task.conversion=none会以集群模式运行，无论是否有limit。在数据量小时建议使用hive.fetch.task.conversion=more,此时select配合limit以单机执行获取样本数据，执行更快

常见的select配合order by/group by等基本操作不在此赘述

注：
select查询可以通过split.maxsize和split.minsize控制并发MAPPER数量

insert型

分为两种

insert into
insert overwrite

配合分区可以达到重写分区或者在分区追加数据的目的。还可以配合动态分区模式插入对应分区

开启动态分区:

// 开启动态分区模式
set hive.exec.dynamic.partition=true;
// 开启动态分区非严格模式（多分区时首分区支持动态分区必要条件，首分区为静态分区可以不设置）
set hive.exec.dynamic.partition.mode=nonstrict;
// 单节点上限
set hive.exec.max.dynamic.partitions.pernode=100;
// 集群上限
set hive.exec.max.dynamic.partitions=1000;

开启之后可以利用SQL达到动态插入的目的:

// 根据分区day动态插入数据
insert into table default.test partition(day) select id,day from orginal

CTAS

全称CREATE TABLE AS SELECT语句，语法和MYSQL类似，可以指定存储/压缩包等

// 采用parquet存储已准备配合SparkSQL使用
create table default.parquet_test stored as parquet as select * from default.test

// 同时可以指定压缩格式
create table default.parquet_test stored as parquet
TBLPROPERTIES ( 'orc.compress'='SNAPPY')
as select * from default.test

// 指定OSS作为存储(推荐)
create table default.parquet_test stored as parquet location 'oss:xxx:yyy/parquet/test'

JOIN优化

上面提到了常见的不同HQL类型，实际在执行的HQL中更可能变慢的时JOIN部分，以下会根据不同的场景来分析

大表x小表

这里可以利用mapjoin，SparkSQL中也有mapjoin或者使用广播变量能达到同样效果，此处描述HQL

// 开启mapjoin并设定map表大小
set hive.auto.convert.join.noconditionaltask = true;
set hive.auto.convert.join.noconditionaltask.size = 10000000;
// 大表 join 小表
select * from big_table join small_table on big_table.id=small_table.id

原理：将小表加载进入节点容器内存中，大表可以直接读取节点容器内存中的数据进行匹配过滤

大表x大表

小表可以放进内存，大表则不行。尽量避免大表x大表的执行需求。如果确认有此需求，可以参考以下方法

尝试将大右表自我join成为一张宽表

// 利用右表的唯一属性自我join
select id, case when type='food' then 0 else 1 as type_tag,case when
sale_type='city' then sales else null as sale_amount from group by id

尝试先将大表按照主键分桶后join

create table new_left as select * from left_table cluster by id
create table new_right as select * from right_table cluster by id
select * from new_left join new_right on new_left.id=new_right.id

根据数据大小量级合理增加reduce数量，reduce不宜设置过大

// hadoop1代
set mapred.reduce.tasks= 200;
// hadoop2代
set mapreduce.job.reduces=200;

利用ORC bloomfilter, 大幅度提高join效率
注：parquet bloomfilter在开发中

// 建立orc表
create table default.right_orc stored as orcfile TBLPROPERTIES
('orc.compress'='SNAPPY',
'orc.create.index'='true',
'orc.bloom.filter.columns'='id')
as select * from right_table
// 使用新表join
select * from left_orc join right_orc on left_orc.id=righ_orc.id

调整内存限制
join时容易造成节点OOM，导致任务失败，可以尝试以下方法：
- map阶段OOM，适当增加map阶段内存 set mapreduce.map.memory.mb=3096
- reduce阶段OOM，适当增加reduce阶段内存 set mapreduce.reduce.memory.mb=4096
  注: 默认执行引擎为mr，如果是TEZ，参考tez优化部分
善用explain/analyze
使用explain和analyze分析HQL语句和表，试图从中找出实际数据中可以优化的部分，这里和数据强关联，需要根据实际数据考量
数据预处理。将部分join放入离线计算任务，减少业务join的时间

总结

HIVE本身确实是数据仓库和交互式查询的优秀框架，但随着数据的增多，join的复杂度和性能问题，需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化，还可以接入计算性能更好的框架，SparkSQL relational cache对使用者透明，开发不需要关心底层优化逻辑，可以将更多精力放入业务设计开发中。后续将针对SparkSQL部分提供个人经验供参考。

欢迎对EMR及相关技术感兴趣的同学进钉钉群一起讨论 :)

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

HIVE优化浅谈

HIVE优化浅谈

常见的HQL

select型

insert型

CTAS

JOIN优化

大表x小表

大表x大表

更多思考

总结

阿里云E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景