【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法

简介: 本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法。


3f3704b14e4110446f4ce7d3cbb9141b020ee7fc

5cac1a5a72e9f5189897137545c06e088dcb1513

421b24a6aa398a87471a13aaf873204a98590460

57000d4455e44ce0eb78930d4687b5a6ebdfca8d

7233941674c2ed1ce04f878a77a701060b86afc0

c32729984909771d7783eaf1057f061527cd20b9

0cbd324d51f47f676251b01f64062b5ce22b6e68

31ec3472d1c71e739ac87b4af00475f4e43b353c

ebb32b003286821aca3ea54ef81f913013849212

e0c83a1ef7d91786711fd3157397cf3aed90656f

2cb1c17e106f9c0c934dc49ad3f65d3f4512c6c9

aab87eee8fc780b92e87c82064b67f2f97f0eefd

62969d6a9b5ebd23b4cbc1c93547f55bfe55b2fe

56f501e944eae57fdf674cfb273328ec8000e30c

c19b161a306f4e0e952927872d61ee0c7169c0f1

d4cce36725d6f3b8b4bb258642da73aa6c2881fe

814549ddbc85f2ae9714f345c830e2b7f3e38dd5

b269f9000fe111696990ce61c3d4f57a592b9ef5

4dc9fa543e05eafe8ce79599dfe0ef937516976b

2e38f62baf6fac172f440ef4674cfdf87c730ecb

8761493f2e010e2fa9c0f5a0629f71175e2f443b

200ddd03644252806e8e34682a957bbb12264673

0f1f71711057a28c054916a51fab34bff2d9c074

f50a6f4ddc3fed7aa92597301d96d80d069d2c86

969db4820efc8f115555098a4d6383986812e200

58f3f0b0cdc3516ec683bcc0aa02cbc093953234

dfff95ba67dd42a49f9d08f7a242234466688bc5

a2ac9367c4f0025ab74c6b3334773fbec80e3e5f

8ef7afd63f93b0781394769731bff4ad213ef190

相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
讲解机器学习中的 K-均值聚类算法及其优缺点。
讲解机器学习中的 K-均值聚类算法及其优缺点。
|
3月前
|
机器学习/深度学习 算法 数据挖掘
机器学习中的 K-均值聚类算法及其优缺点
机器学习中的 K-均值聚类算法及其优缺点
115 0
|
4月前
|
算法
class072 最长递增子序列问题与扩展【算法】
class072 最长递增子序列问题与扩展【算法】
26 0
|
29天前
|
机器学习/深度学习 算法 数据可视化
请解释Python中的K-means聚类算法以及如何使用Sklearn库实现它。
【2月更文挑战第29天】【2月更文挑战第104篇】请解释Python中的K-means聚类算法以及如何使用Sklearn库实现它。
|
2天前
|
数据采集 算法 数据可视化
R语言聚类算法的应用实例
R语言聚类算法的应用实例
80 18
R语言聚类算法的应用实例
|
6天前
|
算法 数据可视化 数据挖掘
使用Python实现DBSCAN聚类算法
使用Python实现DBSCAN聚类算法
139 2
|
8天前
|
算法 数据可视化 数据挖掘
使用Python实现K均值聚类算法
使用Python实现K均值聚类算法
15 1
|
28天前
|
机器学习/深度学习 算法 数据可视化
探索Python中的聚类算法:DBSCAN
探索Python中的聚类算法:DBSCAN
20 0
|
29天前
|
算法 数据挖掘
K-means聚类算法是如何实现的?
K-Means算法包括:随机选K个初始质心,将数据点分配到最近质心的簇,更新簇均值作为新质心,重复此过程直到质心变化足够小或达到最大迭代次数。对初始选择敏感,需多次运行取最优结果。
8 0
|
29天前
|
机器学习/深度学习 算法 数据可视化
探索Python中的聚类算法:K-means
探索Python中的聚类算法:K-means
63 4

热门文章

最新文章