华章计算机 + 关注
手机版

《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路

华章计算机 2017-06-26 10:36:00 浏览928 评论0

摘要: 本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.6.2 Hadoop TF-IDF编程思路 这里不再给出TF-IDF的单机算法实现,而直接给出其Hadoop算法实现思路,如图2-52所示。

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6.2 Hadoop TF-IDF编程思路

这里不再给出TF-IDF的单机算法实现,而直接给出其Hadoop算法实现思路,如图2-52所示。
具体算法描述如下。
Job1:针对每个文件集中的每个输入文件,分别统计其各个单词出现的次数,输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count>。
Job2:针对Job1的输出,统计文件f中所有单词的个数(及一共有多少个唯一的单词),输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count |文件f中的单词数f-length>。


image


Job3:先统计文件集的文件个数length;然后,根据Job2的输出,统计每个单词在所有文件集中出现的文件个数,输出<单词w, [文件名f1=f1-w-count|f1-length, 文件名f2=f2-w-count|f2-length,…]>(根据这里的数据即可得到单词w一共在k个文件中出现)。根据这样的记录即可求得<单词w|文件名f1, f1-w-count|f1-length log(length/k)>, 单词w|文件名f2, f2-w-count|f2-length log(length/k)>,即:<单词w|文件名f1,tf-idf-f1-w>,也就是每个单词在文件中的权重TF-IDF。
其MapReduce数据流如图2-53所示。

【云栖快讯】阿里巴巴小程序繁星计划,20亿补贴第一弹云应用免费申请,限量从速!  详情请点击

网友评论