《Spark MLlib 机器学习实战》1——读后总结-阿里云开发者社区

《Spark MLlib 机器学习实战》1——读后总结

2017-12-04 1549

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1 概念

2 安装

3 RDD

RDD包含两种基本的类型：Transformation和Action。RDD的执行是延迟执行，只有Action算子才会触发任务的执行。

宽依赖和窄依赖用于切分任务，如果都是窄依赖，那么就可以最大化的利用并行。

常用操作：

cache 缓存
cartesian 笛卡尔积
coalesce 重分区
countByValue 分组统计
distinct 去除重复
filter 过滤
flatMap
map
groupBy 分组
keyBy 增加key
reduce 拼接
sortBy 排序
zip 合并压缩

4 基本概念

基本的数据结构

MLlib中提供几种向量和矩阵的数据结构：

Local vector，本地向量
Labeld point，带标签的向量
Local Matrix，本地矩阵
Distributed matrix，分布式矩阵

一般向量或者矩阵都有两个方法，dense表示密集版，sparse表示稀疏版，稀疏版是可以指定下标的。

基本的统计方法

colStats 以列统计基本数据，count个数、max最大值、mean最小值、normL1欧几里德距离、normL2曼哈顿距离、numNonzeros不为0的个数、variance标准差
chiSqTest 皮尔逊距离计算，Statistics.corr(rddx,rddy,"spearman")
corr 数据集相关系数计算，Statistics.corr(rddx,rddy)
分层抽样 data.sampleByKey(withReplacement=false,fractions,0)
假设检验 自由度、统计量、P值、卡方检验
随机数 RandomRDDs.normalRDD(sc,100)

5 协同过滤

协同过滤可以基于人也可以基于物品，不足之处在于：

基于人会对热点物品不够精确
基于物品，但是没有什么多样性

相似度度量

基于欧几里德距离的计算
基于夹角余弦的相似度计算

他们的区别：

欧几里德注重空间上的差异
夹角余弦注重趋势

最小二乘法

最小二乘，就是基于均方误差寻找最佳匹配函数的过程。在矩阵中就是把大矩阵拆分成连个小矩阵的计算。

实践

new ALS()
rank 隐藏的因子数
iterations 迭代次数
lambda 正则项参数
implicitPref 显示反馈还是隐式反馈
alpha 拟合修正的幅度

6 线性回归

梯度下降

道士下山的例子，以及随机梯度下降中 θ=θ-α*J'(θ)公式的原理。

正则项

避免过拟合，可以使用正则项——lasso回归（L1）和岭回归（L2）。关于岭回归可以参考下面两篇：

7 分类

分类算法，包括逻辑回归、支持向量机SVM、贝叶斯等。

逻辑回归

跟线性回归差不多，多了一个sigmoid函数，输出的内容也稍有变化。
另外，对于损失函数的推导也不同了，这里需要最大似然估计的知识！

基本的流程就是，确定1或者0的概率，然后推导出极大似然公式，然后取对数，求导...最终基于梯度下降，优化参数。
由于忘记最大似然估计，所以这里真是理解不上去.

支持向量机

求解的是划分边界的最优解，他的名字听起来像一种很高级的机器人，其实跟逻辑回归差不多，就是选取一条最优的线把数据分作两类。

这里有疑问的可以参考——逻辑回归和SVM的区别是什么？各适合解决什么问题？
https://www.zhihu.com/question/24904422?sort=created

暂时不知道它的损失函数是怎么算出来的...慢慢研究吧

朴素贝叶斯

明明就是计算概率，非叫这么高大上的名字。

本文转自博客园xingoo的博客，原文链接：《Spark MLlib 机器学习实战》1——读后总结，如需转载请自行联系原博主。