《Hadoop与大数据挖掘》一2.5.3 Hadoop K-Means算法实现思路

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Hadoop与大数据挖掘》一2.5.3 Hadoop K-Means算法实现思路

华章计算机 2017-06-26 10:22:00 浏览1843
展开阅读全文

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.5.3节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5.3 Hadoop K-Means算法实现思路

针对K-Means算法,本节给出两种实现思路。思路1相对比较直观,但是效率较低;思路2在实现上需要自定义键值类型,但是效率较高。下面是对两种思路的介绍。
思路1
如图2-47所示,算法描述如下:
1)根据原始文件生成随机聚类中心向量(需指定聚类中心向量个数k),指定循环次数;
2)在map阶段,setup函数读取并初始化聚类中心向量;在map函数中读取每个记录,计算当前记录到各个聚类中心向量的距离,根据到聚类中心向量最小的聚类中心id判断该记录属于哪个类别,输出所属聚类中心id和当前记录;
3)在

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机