《大数据架构和算法实现之路:电商系统的技术实战》——2.4 案例实践

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《大数据架构和算法实现之路:电商系统的技术实战》——2.4 案例实践

华章计算机 2017-05-02 09:34:00 浏览1562
展开阅读全文

本节书摘来自华章计算机《大数据架构和算法实现之路:电商系统的技术实战》一书中的第2章,第2.4节,作者 黄 申,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4 案例实践

2.4.1 使用R进行K均值聚类

在实践部分,我们仍然采用之前介绍的R和Mahout。首先是基于R的快速测试。由于之前在分类的R实战中,已经进行了很多相关的预处理,因此这里可以直接从listing_all_knn开始。K均值聚类的函数kmeans()非常简单,只需指定被聚类的数据框(data frame)和聚类数量k即可。此处较难决定的是聚类的数量k,一种简单的经验值是总样本数一半的平方根。这里的样本数为28?000多,一半是14?000,因此取平方根的近似值100:

> listing_clusters <- kmeans(listing_a

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机