《MapReduce 2.0源码分析与编程实战》一1.5 看,大象也会跳舞

  1. 云栖社区>
  2. 博客>
  3. 正文

《MapReduce 2.0源码分析与编程实战》一1.5 看,大象也会跳舞

异步社区 2017-05-02 15:44:00 浏览1203
展开阅读全文

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.5节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.5 看,大象也会跳舞

大象也会跳舞。当人们还在争论大数据处理能否为自己所在的行业带来革命的时候,部分行业领袖已经在享用大数据处理给自己带来的非凡好处。

Hadoop一个最为普遍的应用是为获得的海量数据提供处理程序,从而能够获得其中包含的各种信息。例如经常使用的聚类推荐,向感兴趣的顾客推荐相关商品和服务;或者为广告供应商提供具有针对性的广告服务,并且通过点击率的反馈获得统计信息,进而有效地帮助他们调整相应的广告投放能力。

长期以来,互联网巨头,包括Yahoo!、Google等广告商为其投放的标准广告类型提供了多种广告计费方式。首先是基于点击数计费的广告形式,即根据查看和点击这个广告的人群数目付费的广告投效方式。此外,还有根据网上查看到广告的人数比例进行付费的模式,此项广告投放简单,但是针对性较差,无差别的投放并不能带来好的收益和效果。随着技术的进步,更多的动态广告内容被广泛应用到广告投放形式中来,即根据个人的喜好和习惯制定个性化广告。而Hadoop可以在网站后台进行准确的数据抓取和结果分析,从而更为准确地推荐广告。例如社交网站Facebook上某一个用户经常通过网上链接购买某个品牌的饮料,而Hadoop可以在后台准确地记录其购买次数和口味类型,并通过其与好友分享信息的关键字对数据进行整体处理,从而可以向该用户推荐符合其口味的某项新产品。

同样,Hadoop一个更为典型的应用是分析某一段时间内登录到某个既定网站的平均用户数,或者找到用户数最低点,从而为进行服务器维护提供合适的时间。这个工作繁重而且复杂,这是因为要涉及浏览全部的日志文件,对其进行提取和处理,并根据相应的算法将数据分组。而对大数据的处理恰好是Hadoop的强项,可以很容易地找出不同时间段的人员均值,并获取最低值,从而解决维护时间问题。

小提示:
沃尔玛通过Hadoop分析出放置位置最为接近的商品应该是“尿布与啤酒”。刚开始,数据处理人员对这个结果也感到困惑,调查得知大多数购买尿布的是下班后的男性工作者,因其回家后无法外出,只得同时购买啤酒回家看电视。
这一切如果没有Hadoop几乎很难完成,同时,也间接证明了数据和Hadoop本身并不能带来如此的神奇效应,然而一旦联系在一起,则可以发现以前从来没有发现的数据点,从而使分析和挖掘成为了可能。

本章小结

网友评论

登录后评论
0/500
评论
异步社区
+ 关注