《Hadoop与大数据挖掘》一2.6.3 Hadoop TF-IDF编程实现

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.6.3 Hadoop TF-IDF编程实现

华章计算机 2017-06-26 10:46:00 浏览980
展开阅读全文

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6.3节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6.3 Hadoop TF-IDF编程实现

这里给出的TF-IDF算法的测试数据使用的是Avro格式的。这里只对Avro进行简单介绍,如读者需要深入了解,可以上网查找相关资料。

  1. Avro简介
    Avro是一个数据序列化的系统,它可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。

Avro依赖于模式(Schema)。通过模式定义各种数据结构,只有确定了模式才能对数据进行解释,所以在数据的序列化和反序列化之前,必须先确定模式的结构。

image


Schema通过JSON对象表示。Sc

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机