独家 | 一文读懂大数据处理框架

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

独家 | 一文读懂大数据处理框架

行者武松 2017-07-03 13:14:00 浏览1998
展开阅读全文
640?wx_fmt=png&wxfrom=5&wx_lazy=1


前言


说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clusters》。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解,但由于输入数据量很大,单机难以处理。所以需要利用分布式的方式完成计算,并且需要考虑如何进行并行计算、分配数据和处理失败等等问题。


针对这些复杂的问题,Google决定设计一套抽象模型来执行这些简单计算,并隐藏并发、容错、数据分布和均衡负载等方面的细节。受到Lisp和其它函数式编程语言map、reduce思想的启发,论文的作者意识到许多计算都涉及对

网友评论

登录后评论
0/500
评论
行者武松
+ 关注
所属云栖号: 数据派THU