Hadoop 少量map/reduce任务执行慢问题

简介: 最近在做报表统计,跑hadoop任务。之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。执行时间长有几种可能性:1. 单个map/reduce任务处理的任务大。

最近在做报表统计,跑hadoop任务。

之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。

执行时间长有几种可能性:

1. 单个map/reduce任务处理的任务大。

    需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。

2. map数量过多, reduce拉取各方数据慢

    这种情况,可以在中间加一轮map过程A。

    即map -> mapA - > reduce,来减少reduce拉取数据的源头的个数

3. 遇到了执行慢节点

    hadoop 可以执行推测执行。对于某些耗时长的任务,如果集群有多余的slot可以启动额外的任务执行。

    如果对于同一个map(或者reduce),有任何一个相同map执行完成。则其他任务会被kill, 该map(或者reduce)执行完成。

    这种情况完全避免了,慢节点问题。

  推测执行参数: mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 默认开启。

   

map/reduce官方默认参数: https://hadoop.apache.org/docs/r1.0.4/mapred-default.html

相关文章
|
4月前
|
分布式计算 Hadoop 关系型数据库
Hadoop任务scan Hbase 导出数据量变小分析
Hadoop任务scan Hbase 导出数据量变小分析
53 0
|
4月前
|
分布式计算 监控 Hadoop
Hadoop MR 任务运行时日志分析
Hadoop MR 任务运行时日志分析
26 0
|
分布式计算 Hadoop
Hadoop学习:MapReduce不使用Reduce将表合并提高效率
Hadoop学习:MapReduce不使用Reduce将表合并提高效率
113 0
|
分布式计算 Hadoop Scala
spark中 map和reduce理解及与hadoop的map、reduce区别
spark中 map和reduce理解及与hadoop的map、reduce区别
281 0
|
缓存 分布式计算 Hadoop
hadoop之Map join和Reduce join (13)
hadoop之Map join和Reduce join (13)
112 0
hadoop之Map join和Reduce join (13)
|
分布式计算 Hadoop Java
Hadoop学习(三) Map/Reduce编程
用Java编程演示如何来实现Map/Reduce编程。其核心思想是通过Map函数,将一个大的任务拆分成若干个小的子任务,交给计算机去并行处理,全部处理结束后由Reducer函数来合并子任务的计算结果,产生最终结果。这样的计算方式将大大缩短计算时间。
125 0
|
SQL 数据采集 缓存
实践Hadoop MapReduce 任务的性能翻倍之路
eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量,Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化,希望为开发者带来启发,解决Hadoop MapReduce(MR)job实践中存在的问题。
实践Hadoop MapReduce 任务的性能翻倍之路
|
编解码 分布式计算 算法
记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51397729 前言 近日在线上发现有些mapreduce作业的执行时间很长,我们需要解决这个问题。
1180 0
|
分布式计算 Hadoop
Hadoop旧mapreduce的map任务切分原理
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51395043 前言 最近在工作过程中接触一些Hive数据仓库中的表,这些表实际是从关系型数据库通过Sqoop抽到Hive的。
1048 0

相关实验场景

更多