《Hadoop与大数据挖掘》一2.6 TF-IDF算法原理及Hadoop MapReduce实现

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.6 TF-IDF算法原理及Hadoop MapReduce实现

华章计算机 2017-06-26 10:33:00 浏览1136
展开阅读全文

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 TF-IDF算法原理及Hadoop MapReduce实现

2.6.1 TF-IDF算法原理
原理:在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比在短文件里有更高的词频,而不管该词语重要与否)。逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机