备案控制台

开发者社区

开发者社区大数据文章正文

Hadoop 少量map/reduce任务执行慢问题

2017-12-23 1793

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近在做报表统计，跑hadoop任务。之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。执行时间长有几种可能性：1. 单个map/reduce任务处理的任务大。

最近在做报表统计，跑hadoop任务。

之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。

执行时间长有几种可能性：

1. 单个map/reduce任务处理的任务大。

需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。

2. map数量过多, reduce拉取各方数据慢

这种情况，可以在中间加一轮map过程A。

即map -> mapA - > reduce，来减少reduce拉取数据的源头的个数。

3. 遇到了执行慢节点

hadoop 可以执行推测执行。对于某些耗时长的任务，如果集群有多余的slot可以启动额外的任务执行。

如果对于同一个map(或者reduce)，有任何一个相同map执行完成。则其他任务会被kill, 该map(或者reduce)执行完成。

这种情况完全避免了，慢节点问题。

　推测执行参数: mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 默认开启。

map/reduce官方默认参数: https://hadoop.apache.org/docs/r1.0.4/mapred-default.html

文章标签：

分布式计算

Hadoop

数据处理

BI

关键词：

hadoop任务

hadoop reduce

hadoop map

hadoop map reduce

旭东的博客

目录

相关文章

诸葛子房

|

4月前

|

分布式计算 Hadoop 关系型数据库

Hadoop任务scan Hbase 导出数据量变小分析

Hadoop任务scan Hbase 导出数据量变小分析

诸葛子房

53 0 0

诸葛子房

|

4月前

|

分布式计算监控 Hadoop

Hadoop MR 任务运行时日志分析

Hadoop MR 任务运行时日志分析

诸葛子房

26 0 0

壹佰、

|

分布式计算 Hadoop

Hadoop学习：MapReduce不使用Reduce将表合并提高效率

Hadoop学习：MapReduce不使用Reduce将表合并提高效率

壹佰、

113 0 0

about云

|

分布式计算 Hadoop Scala

spark中 map和reduce理解及与hadoop的map、reduce区别

spark中 map和reduce理解及与hadoop的map、reduce区别

about云

281 0 0

怒放de生命

|

缓存分布式计算 Hadoop

hadoop之Map join和Reduce join (13)

hadoop之Map join和Reduce join (13)

怒放de生命

112 0 0

hadoop之Map join和Reduce join (13)

xiaoma

|

分布式计算 Hadoop Java

Hadoop学习（三） Map/Reduce编程

用Java编程演示如何来实现Map/Reduce编程。其核心思想是通过Map函数，将一个大的任务拆分成若干个小的子任务，交给计算机去并行处理，全部处理结束后由Reducer函数来合并子任务的计算结果，产生最终结果。这样的计算方式将大大缩短计算时间。

xiaoma

125 0 0

开源大数据EMR

|

SQL 数据采集缓存

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志，其数据量每天都在增加。对于日益增长的数据量，Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化，希望为开发者带来启发，解决Hadoop MapReduce（MR）job实践中存在的问题。

开源大数据EMR

2837 0 0

实践Hadoop MapReduce 任务的性能翻倍之路

般若灵芝

|

分布式计算 Hadoop 编解码

自定义hadoop map/reduce输入文件切割InputFormat

般若灵芝

1645 0 0

泰山不老生

|

编解码分布式计算算法

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51397729 前言近日在线上发现有些mapreduce作业的执行时间很长，我们需要解决这个问题。

泰山不老生

1180 0 0

泰山不老生

|

分布式计算 Hadoop

Hadoop旧mapreduce的map任务切分原理

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51395043 前言最近在工作过程中接触一些Hive数据仓库中的表，这些表实际是从关系型数据库通过Sqoop抽到Hive的。

泰山不老生

1048 0 0

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

大数据处理架构Hadoop

Hadoop集群基本测试

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Hadoop】HDFS 读写流程

大数据Hadoop生态圈体系视频课程

hadoop 启动和验证

Apache Hadoop YARN基本架构

hadoop配置文件参数

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

Hadoop：驭服数据洪流的利器

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云oss简介和使用流程