备案控制台

开发者社区

开发者社区大数据文章正文

MapReduce

2013-08-04 1187

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PS：内容来自开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?的文档，算做简单了解，想花时间好好了解hadoop！ MapReduce原理1 问题：求出以下数组当中最大的数 1，3，23，3，4，18，2，8，10，16，7，5 int Max(int a[], n) { int m=0; for(

PS：内容来自开源力量公开课第二十四期-为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?的文档，算做简单了解，想花时间好好了解hadoop！

MapReduce原理1

问题：
求出以下数组当中最大的数
1，3，23，3，4，18，2，8，10，16，7，5

int Max(int a[], n)
{
    int m=0;
    for(int i=0; i<n; i++)
         if(m<a[i]) m=a[i];
    return m;
}

MapReduce原理2

MapReduce是一种编程模型，用于大规模数据集的并行计算。

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算，通俗的说就是将一个大任务分成多个小任务并行完成，然后合并小任务的结果，得到最终结果。

MapReduce运行过程

通过将Map调用的输入数据自动分割为M个数据片段的集合，Map调用被分布到多台机器上执行。输入的数据片段能够在不同的机器上并行处理。使用分区函数将Map调用产生的中间key值分成R个不同分区。例如，hash(key) mod R），Reduce调用也被分布到多台机器上执行。分区数量（R）和分区函数由用户来指定。

加油

///静下心来读书……

文章标签：

大数据

分布式计算

Hadoop

人工智能

并行计算

lin.tao

目录

相关文章

阿甘兄

|

5月前

|

分布式计算数据处理

38 MAPREDUCE中的其他应用

38 MAPREDUCE中的其他应用

阿甘兄

24 0 0

阿甘兄

|

5月前

|

分布式计算

37 MAPREDUCE中的DistributedCache应用

37 MAPREDUCE中的DistributedCache应用

阿甘兄

18 0 0

阿甘兄

|

5月前

|

存储分布式计算监控

19 为什么要MAPREDUCE?

19 为什么要MAPREDUCE?

阿甘兄

32 0 0

算精通

|

9月前

|

数据采集机器学习/深度学习存储

E-MapReduce（简称EMR）是阿里云提供的一项大数据处理服务，它基于开源的 Apache Hadoop 和 Apache Spark 构建，并提供了易于使用的 Web 界面和 API 接口，方便用户快速创建、调度和管理大数据处理作业。

算精通

151 2 2

豆约翰

|

11月前

|

分布式计算并行计算大数据

初识MapReduce

初识MapReduce

豆约翰

56 0 0

CBeann

|

缓存分布式计算 NoSQL

MapReduce（二）

MapReduce（二）

CBeann

76 0 0

游客yno6xv7miabmw

|

存储分布式计算资源调度

MapReduce详解（2）

MapReduce详解

游客yno6xv7miabmw

123 0 0

游客yno6xv7miabmw

|

存储分布式计算资源调度

MapReduce详解（1）

MapReduce详解

游客yno6xv7miabmw

191 0 0

木鸟杂记

|

存储分布式计算监控

MapReduce —— 历久而弥新（2）

MapReduce —— 历久而弥新（2）

木鸟杂记

117 0 0

木鸟杂记

|

存储缓存分布式计算

MapReduce —— 历久而弥新（1）

MapReduce —— 历久而弥新（1）

木鸟杂记

133 0 0

MapReduce —— 历久而弥新（1）

热门文章

最新文章

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

阿里云的SLB，植入cookie和重写cookie有什么区别？

基于Flink的实时日志分析系统实践

如何在服务器上跑python程序

电池技术多年没有较大发展，成为移动设备最大制约

Spread for WinRT 7新功能使用指南

codeforces Soldier and Number Game（dp+素数筛选）

九度oj-1001-Java

Android:随笔——对页面的View进行截图

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

极值分析：分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列

GARCH-DCC模型和DCC（MVT）建模估计

ARIMA、ARIMAX、动态回归和OLS 回归预测多元时间序列

R语言预测期货波动率的实现：ARCH与HAR-RV与GARCH，ARFIMA模型比较

spss modeler用决策树神经网络预测ST的股票

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

matlab中使用VMD(变分模态分解)对信号去噪

相关课程

更多

快速掌握阿里云 E-MapReduce

Hadoop 分布式计算框架 MapReduce

E-MapReduce入门

Hadoop 分布式文件系统 HDFS

Apache Flink 入门

Hadoop 分布式资源管理框架 YARN

相关电子书

更多

阿里云E-MapReduce

\"Hadoop的过去现在和未来——从阿里云梯到E-MapReduce \"

spark替代HIVE实现ETL作业

下一篇

阿里云oss简介和使用流程