备案控制台

开发者社区

开发者社区大数据文章正文

Hive 调整inputsplit size来增加MAP数

2017-11-15 1752

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

线上一个Hive（CDH4.2.0）的清洗Job出错，查看日志发现其中一个MAP OOME：

查看了日志这个HQL是2个表进行Join，splits=2即开了2个MAP进行分别处理，其中一个大表123MB（<dfs.block.size=128MB），500W行左右，应该是数据量超过了MAP的内存了，通过对比前一天的日志可以确认：

由于是临时表，设置了mapred.reduce.tasks=20重跑新生成临时表，Join清洗成功：

由于MR的inputsplit size=min{minsplitsize,max{maxsplitsize,blocksize}}，因此想是否可以通过设置mapred.max.split.size=32MB来起多个MAP这种方式解决呢，尝试后发现仍然是2个MAP；以为是BugMAPREDUCE-2046，但是CDH4.2已经merge进来,看了一圈由于sequencefileinputformat是老的mapreduce api接口，修改一下hive.input.format然后通过设置mapred.map.tasks增加果然起了预期的MAP数；

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1298637，如需转载请自行联系原作者

文章标签：

SQL

HIVE

分布式计算

API

科技小先锋

目录

相关文章

余二五

|

SQL HIVE

hive优化--增加减少map数

余二五

1396 0 0

安然AR

|

8月前

|

存储 SQL HIVE

数据仓库的Hive的数据类型的复杂数据类型的map

在数据仓库领域，Hive是一个常用的工具。它提供了一种简单的方式来查询和分析大量数据。

安然AR

81 0 0

笑看风云路

|

10月前

|

SQL HIVE

Hive 作业产生的map数越多越好还是越少越好？

Hive 作业map数设置原则

笑看风云路

77 0 0

知与谁同

|

SQL HIVE 存储

Hive map阶段缓慢，优化过程详细分析

知与谁同

4085 0 0

余二五

|

SQL HIVE

【拾贝】hive unoin all map数爆增

余二五

1112 0 0

科技小先锋

|

SQL 分布式计算算法

控制Hive MAP个数详解

科技小先锋

1571 0 0

thinkgamer.cn

|

SQL HIVE

关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

写在前边的话：同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题：hive表中的电影类型存储格式为array，那么我如何针对每一个类型做统计呢？本来是想在基于豆瓣电影数据进行相关的数据分析项目中进行相关解释说明的，仔细想了下，刚好拿...

thinkgamer.cn

2423 0 0

雨客

|

SQL 分布式计算算法

Hive中如何确定map数

雨客

6111 0 0

Maynor

|

4月前

|

SQL 数据采集数据挖掘

大数据行业应用之Hive数据分析航班线路相关的各项指标

大数据行业应用之Hive数据分析航班线路相关的各项指标

Maynor

97 1 1

热烈的马

|

4月前

|

SQL 存储大数据

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

热烈的马

73 0 0

热门文章

最新文章

阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移

利用Hive与Hadoop构建大数据仓库：从零到一

bigdata-17-Hive部署与Hive基础

hive学习笔记

bigdata-18-Hive数据结构与存储格式

bigdata-21-Hive基本函数

【Hive】Hive有索引吗？

bigdata-20-Hive内外部表

Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

【Hive】sort by 和 order by 的区别

DataWorks报错问题之集成hive数据源报错如何解决

DataWorks报错问题之从hive到mysql报错如何解决

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

Hive中日期处理函数的使用（date_format、date_add、date_sub、next_day）

Hive窗口函数案例总结

Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理（一篇即可学会在日常工作中使用Sqoop）

Hive Delegation Token 揭秘

Flink依赖问题之connector hive依赖冲突如何解决

Flink报错问题之flink-1.11写hive报错如何解决

Flink报错问题之使用hive udf函数报错如何解决

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

使用Count功能批量创建资源

下一篇

阿里云oss简介和使用流程