《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路

华章计算机 2017-06-26 10:36:00 浏览1097
展开阅读全文

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6.2 Hadoop TF-IDF编程思路

这里不再给出TF-IDF的单机算法实现,而直接给出其Hadoop算法实现思路,如图2-52所示。
具体算法描述如下。
Job1:针对每个文件集中的每个输入文件,分别统计其各个单词出现的次数,输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count>。
Job2:针对Job1的输出,统计文件f中所有单词的个数(及一共有多少个唯一的单词),输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count |文件f中的单词数f-length>。


image


Job3:先统

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机