《Mahout算法解析与案例实战》一一

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Mahout算法解析与案例实战》一一

华章计算机 2017-07-04 15:12:00 浏览2331
展开阅读全文

本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第3章,第3.1节,作者:樊 哲,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 Canopy算法

3.1.1 Canopy算法简介
在生活中,我们可以使用聚类解决很多问题,就像本章开始提到的几个例子一样。传统的聚类算法对于一般的应用问题(基本都是小数据量)都是可以解决的,但是当数据变得很大的时候,就有点“力不从心”了。这里的数据变得很大指的是:①数据的条目很多,整个数据集包含的样本数据向量很多;②针对①中的每个样本数据向量其维度很大,即包含多个属性;③要聚类的中心向量很多。当我们所要应用聚类算法的数据是上面所述情况时,传统的聚类方法应用起来就会相当棘手,这时就要采取另外的途径,即改进的聚类算法。本节介绍的Canopy算法就是聚类算法发展到一定阶段,Andr

网友评论

登录后评论
0/500
评论