《Hadoop与大数据挖掘》一2.4.2 MapReduce原理

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.4.2 MapReduce原理

华章计算机 2017-06-26 09:58:00 浏览1238
展开阅读全文

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.4.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4.2 MapReduce原理

1.通俗理解MapReduce原理
现在你接到一个任务,给你10本长篇英文小说,让你统计这10本书中每一个单词出现的次数。这便是Hadoop编程中赫赫有名的HelloWorld程序:词频统计。这个任务的结果形式如表2-6所示。

image
image


即在这10本书中a共出现了12300次,ai共出现了63次……依次计算出每一个单词出现多少次。天啊,这个工作必须由专业人士做呀,自己做的话还不累死呀。这时你可以把这个工作外包给一支职业分布式运算工程队做。
分布式运算工程队中按岗位有Mapper、Mapper助理Comb-iner、Map

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机