备案控制台

开发者社区

开发者社区人工智能文章正文

Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm

2017-05-02 2513

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

网易公开课，第12，13课
notes，7a, 7b，8

从这章开始，介绍无监督的算法
对于无监督，当然首先想到k means, 最典型也最简单，有需要直接看7a的讲义

Mixtures of Gaussians

如果要理解Mixtures of Gaussians，那先回去复习一下Gaussians Discriminant Analysis，高斯判别分析

首先高斯判别分析是生成算法，

所以不会直接拟合p(y|x), 而是拟合p(x|y)p(y), 即p(x,y)

p(y)符合伯努力分布，如果是多元分类，即多项式分布
p(x|y)符合多项高斯分布

然后用最大似然法，学习出

这个问题就解了

那么对于混合高斯，区别只是，对于一系列数据点，y是未知的，即非监督
下面看看形式化的定义，

既然y是未知，所以换个名字，z，隐随机变量（latent random variables, meaning that they’re hidden/unobserved.）

z符合多项式分布，参数φj表示z=j的概率，所以φ一定>=0, 并且所有φ的和为1

x|z，符合多项高斯分布

和高斯判别分析其实，只是把y替换成z，表示z是未知，不可见的
并且也是每个多项高斯分布都不同的，这点和高斯判别也有些不一样

那么它的最大似然估计为，

最大似然时，之所以只考虑x，没有像高斯判别那样考虑p(x, y)，是因为y不可见
但是怎么理解？
可以想象一维数据，有很多数据点，分别代表多个高斯分布混合着一起
而高斯分布一定是中间的点比较密集，这里的p(x)会比较高
假设我们的数据点是有代表性的，所以拟合出p(x)高的高斯分布，会更合理一些

对于这个如何求解？
直接用梯度下降很难求解，因为在log里面求和。。。求导试试看

当然这里如果z已知，那么就很简单，直接变成高斯判别分析问题，但是问题现在z未知。

解决这个问题的方法，就是EM算法，Expectation Maximization Algorithm

这个算法其实思路很简单，但是如何推导和证明他的收敛和有效，比较复杂

所以先看看思路和实现，再来看推导

思路很简单，既然不知道z，并且如果知道就可以解这个问题，那么我们就先随便猜z，然后再迭代

具体如下，

E步骤，我们任意初始化参数，就可以算出每个xi对应的zi，其实只要算出上面的这个概念分布就可以

具体算的公式如下，

，其中分别符合多项式和多项高斯分布，代入公式很容易算出

M步骤，

用上面猜的z来重新计算参数，这里看到为何只要算出w就ok，因为就已经足够算出新的参数

至于为何是这个公式，因为从上面高斯判别分析，可以得到，

只是简单的把部分替换成w

通过不停的E，M步骤的迭代，最终一定可以收敛到局部最优，和k-means一样，可以多试些初始值，来找到全局最优

但是为何这么简单的方法会有效，如何理解EM？继续

The EM algorithm

上面看到使用EM来拟合混合高斯问题，但这只是EM的一个特例

这章会推导出EM的一般形式，他可以解决各种含有隐变量的预估问题(estimation problems with latent variables.)

Jensen's inequality

先介绍一下Jensen不等式

首先通过下面的图理解一下，当f是凸函数的时候
E[f(x)] >= f(E[x])

对于凸函数，如果x是随机变量，分布均匀，那么x的均值一定比较接近谷底，所以这个不等式一定成立的

当f是严格凸函数的时候，即时，普通凸函数，二阶导数可能为0，比如某一段为直线
如果要E[f(x)] = f(E[x])，当且仅当 x = E[x], 即x是个常量

需要注意，这个不等式对于concave，凹函数也是满足的，但不等式的方向相反

EM algorithm

下面来看看EM算法，

对于m个独立的训练数据点，似然函数如下，
这里是通用形式，所以参数就是，这里没有假设z和x|z的分布，可以是任意分布

这个直接解是很困难的，所以用EM算法解

解的思路，

E-step, construct a lower-bound on
先随便初始化参数，构建这个分布的下界，即最差的case
然后通过下界的分布，得到z

M-step, optimize that lower-bound
用E-step得到的z来最优化参数

如下图，在迭代过程中，下界的分布会不断的逼近真实分布

首先，假设Q为z的某种分布，Q(zi)为zi出现的概率，那么有，并且Q(zi)>=0

然后为了使用Jensen不等式，对(1)分子分母同时乘上Q(zi)，这样就产生了期望E

先看下期望的定义，

参考，（EM算法）The EM Algorithm

那么对应于上面的公式，其中

，为g(z)

而，为p

所以，

就是，

再来看Jensen不等式，E[f(x)] >= f(E[x])，其中f就是log，所以得到上面(3)

所以这样就产生了的下界，

我们需要在M-step中去最优化这个下界，但问题是现在Q分布还没有确定，如何确定哪种Q分布会最好

我们虽然给出在参数时的下界，但是我们希望这个下界是可以尽量逼近的，所以希望(3)中最好可以取到等式，这样下界就等于

这时候再看Jensen不等式中，对于=取值的条件，即，

由于，所以让分子和分母对所有的z求和，应该还是等于c，比如2+4 /1+2，仍然为2，得到

，

所以得到Q的分布，就是z的后验概率

所以，最终得到的general EM算法为，

可以对比一下，之前混合高斯的EM，体会一下特例和通用的差别

那么这个算法是收敛的吗？即证明下面的式子，第t+1次迭代的>=第t次迭代

过程如下，

(4)给出的下界

(5)因为在M-step，要在固定Q情况下，最优化，所以优化完，一定比原来的要大

(6)因为在取下界的时候，选择Q使得

所以得证

EM和k-means都是一定会收敛到局部最优的

从另外一个角度来看EM，其实是一种坐标上升算法，

在E-Step，我们固定来，求解最优的Q

在M-Step，我们固定Q来，求解最优的

Mixture of Gaussians revisited

看完通用的EM算法，再会过头来看看混合高斯算法，应该会更清晰一些

对于E-step很简单，

通用的EM，表示为

而对于混合高斯算法，为，这个很自然，不需要解释

然后对于M-step，需要最大化下面的式子以求出

后面的求解过程就是分别对，，求导然后求解，就可以得到上面的已经列出的公式，具体过程可以参考讲义，这里就不列了

文本聚类- Mixtures of Naive Bayes Model

这个没有讲义，只能截图

对于naive bayes是文本分类，而因为这里的训练集是不知道y的，所以就是文本聚类问题
得到m个文本，每个文本是n维向量，其中每维取{0,1}代表该word是否在文本中出现

而隐变量z，也是取值{0,1}，表示分两类，那么z就符合伯努力分布

p(x|z)，符合naive bayes分布

这里给出，E-step和M-step的公式

当然其中M-step是通过最大化P(x|z)，求解出来的

其实想想，EM和K-mean的基本思路是差不多的
首先对于数据集，选定特征后，是可分的，即如果把数据画出来，是可以看到明显聚集的

所以随意设定初值后，不断迭代，比如混合高斯，总是可以渐渐收敛到局部最优的，不同于k-mean的是
EM可以给出具体的密度函数p(z|x)
对于隐变量z，其实K-mean，如果设k=2，即两类，相当于产生z取值{0,1}

本文章摘自博客园，原文发布日期：2014-08-07

文章标签：

算法

机器学习/深度学习

Python

关键词：

人工智能平台 PAI笔记

机器学习平台 PAI笔记

机器学习平台 PAI公开课

andrew ng机器学习平台 PAI公开课笔记

寒凝雪

目录

相关文章

布客飞龙

|

9天前

|

索引机器学习/深度学习 Python

fast.ai 机器学习笔记（二）（3）

fast.ai 机器学习笔记（二）

布客飞龙

22 0 0

fast.ai 机器学习笔记（二）（3）

布客飞龙

|

9天前

|

机器学习/深度学习算法框架/工具 PyTorch

fast.ai 机器学习笔记（三）（2）

fast.ai 机器学习笔记（三）

布客飞龙

36 0 0

fast.ai 机器学习笔记（三）（2）

布客飞龙

|

机器学习/深度学习算法计算机视觉

fast.ai 机器学习笔记（四）（4）

fast.ai 机器学习笔记（四）

布客飞龙

17 0 0

fast.ai 机器学习笔记（四）（4）

布客飞龙

|

9天前

|

机器学习/深度学习索引 Python

fast.ai 机器学习笔记（四）（2）

fast.ai 机器学习笔记（四）

布客飞龙

94 0 0

fast.ai 机器学习笔记（四）（2）

布客飞龙

|

9天前

|

机器学习/深度学习数据挖掘 Python

fast.ai 机器学习笔记（一）（4）

fast.ai 机器学习笔记（一）

布客飞龙

73 1 1

fast.ai 机器学习笔记（一）（4）

布客飞龙

|

9天前

|

机器学习/深度学习 Python 索引

fast.ai 机器学习笔记（一）（1）

fast.ai 机器学习笔记（一）

布客飞龙

35 0 0

fast.ai 机器学习笔记（一）（1）

w风雨无阻w

|

1月前

|

机器学习/深度学习人工智能算法

机器学习的魔法（一）从零开始理解吴恩达的精炼笔记

机器学习的魔法（一）从零开始理解吴恩达的精炼笔记

w风雨无阻w

21 0 0

皮卡丘敲级可爱

|

3月前

|

机器学习/深度学习数据可视化算法

【学习打卡04】可解释机器学习笔记之Grad-CAM

【学习打卡04】可解释机器学习笔记之Grad-CAM

皮卡丘敲级可爱

98 1 1

皮卡丘敲级可爱

|

3月前

|

机器学习/深度学习人工智能文字识别

【学习打卡03】可解释机器学习笔记之CAM类激活热力图

【学习打卡03】可解释机器学习笔记之CAM类激活热力图

皮卡丘敲级可爱

155 0 0

皮卡丘敲级可爱

|

3月前

|

机器学习/深度学习存储数据可视化

【学习打卡02】可解释机器学习笔记之ZFNet

【学习打卡02】可解释机器学习笔记之ZFNet

皮卡丘敲级可爱

32 0 0

热门文章

最新文章

Machine Learning机器学习之贝叶斯网络(BayesianNetwork)

机器学习库：numpy

机器学习第11天：降维

构建高效机器学习模型：从特征工程到模型调优

构建高效机器学习模型：从数据预处理到模型优化

机器学习PAI常见问题之配了exporter_type: "final"，训练完却没有如何解决

构建高效机器学习模型的最佳实践

构建高效机器学习模型的五大技巧

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

fast.ai 机器学习笔记（四）（2）

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

构建高效机器学习模型的最佳实践

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2

利用机器学习优化数据中心能效的研究

《Python 简易速速上手小册》第9章：数据科学和机器学习入门（2024 最新版）

大模型服务平台百炼之模型训练与调优实践分享|快来围观~

利用机器学习优化数据中心能效的策略研究

PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

TensorFlow分布式训练：加速深度学习模型训练

构建自定义机器学习模型：Scikit-learn的高级应用

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

微博机器学习平台架构和实践

机器学习及人机交互实战

大数据与机器学习支撑的个性化大屏

相关实验场景

更多

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）