Processing math: 100%

备案控制台

开发者社区人工智能文章正文

简单易学！一步步带你理解机器学习算法——马尔可夫链蒙特卡罗（MCMC）

2016-12-22 30478

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 对于简单的分布，很多的编程语言都能实现。但对于复杂的分布，是不容易直接抽样的。马尔可夫链蒙特卡罗算法解决了不能通过简单抽样算法进行抽样的问题，是一种实用性很强的抽样算法。本文将简明清晰地讲解马尔可夫链蒙特卡罗算法，带你理解它。

本文由北邮爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

以下为译文：

什么是MCMC，什么时候使用它

MCMC只是一种从分布中抽样的算法。这个术语代表“马尔可夫链蒙特卡罗”，因为它是一种使用了“马尔可夫链”的“蒙特卡罗”（即随机）方法。MCMC只是一种蒙特卡罗方法。

为什么我要从分布抽样呢?

从分布抽样是解决一些问题的最简单的方法。

也许在贝叶斯推断中最常见的方式是使用MCMC来从某些模型的后验概率分布中抽取样本。有了这些示例，你就可以问这样的问题：“什么是参数的平均值和可信区间？”。

例如，假设你有合适的参数模型的后验概率密度是某个函数f(x,y)。然后，计算参数 x的平均值，你可以这样计算

92efeb2b155e2454e5f8dc717079edbc8303128b

你可以简单地读作“x乘以参数(x,y)的概率，积分在x和y可能采用的所有可能值上。”

另一种计算这个值的方法是模拟观察值K ，，从f(x,y)计算样本平均值为

e8f8d0d3e5837addd0febac259a9cc3f0c4835ae

其中x(j)为第j个样本的x的值。

如果这些样品是分布的独立样本，那么随着k→∞，x的估计平均数会收敛于真平均数。

假设我们的目标分布是一个正态分布，平均数m和标准偏差S。显然，这种分布的平均值是m，让我们试着通过从分布中抽取样本来显示。

举一个例子，估计一个平均值m和标准偏差S的正态分布的值（在这里，我只会使用与普遍的常态相对应的参数）：

我们可以使用rnorm 函数很容易地从这个分布中抽样：

样本的平均值与真平均数（零）非常接近：

事实上，在这种情况下，n个样本的估计的期望方差是1/n，所以我们预期最值位于真平均数为10000点的

中。

此函数计算累积平均数（即元素1,2，…，K的和除以K）。

这里是收敛到接近于真平均值（红线为0）。

60da4e7164d8ba0b43198c9162d61ed54e258398

将X轴变换到对数刻度上，并显示另外30个随机方法：

027dcdfa2792c66b42fddf6945bd7f9d879a2250

775bff0b3c01b397ced7e5f4c1750ef4dc0e23ea

如何得出结果？考虑积分

1ac554f2961db9e9a1021582ca4cd09a7c42aec8

如果这可以分解成函数f（x）和概率密度函数P（x）的乘积，则

注意，右边仅仅是期望值E[f(x)]。根据大数定律，当样本量增长到无穷大时，期望值是样本均值的极限。因此，我们可以近似E[f(x)]为

你可以用这种方法做很多类似的事情。例如，如果你想在估计值附近画一个95%的可信区间，你可以通过求解a来估计它的底部分量。或者，你可以从你的一系列采样点中取样本分位数。

32648b0497939f63e27c470da91df6752d259f30

下面是分析地计算概率密度为2.5%的点：

在这种情况下，我们可以直接使用积分来估计（使用上述参数）

0ebef837c16cf40c8f91f03e50f0ea5b275c6eda

并且用Monte Carlo积分估计点：

请注意，这有一个错误：

但当样本大小趋于无穷大时，这将收敛。如果我们重复采样100次，我们会得到一系列估计，其具有与平均值周围的误差大约相同量级的误差：

仍然不相信？

在贝叶斯框架中，你将计算出在所有其他参数中你感兴趣的参数的临界分布。如果你有其他50个参数，这是一个很难的积分！

为什么这是很难的，考虑参数空间区域中包含“有趣”的参数值：即参数值都明显大于零的概率。

为了说明这个问题，

l.假设一个半径为R的圆的和一个边长为2R的正方形；空间的“有趣的”区域为 f59a3d6c61f937328637b8f70654b1de13b1bb26 ，所以我们有一个很好的机会，随机选择点在圆内。

2.在一个边长为2R的立方体内有一个半径为R的球体，球体的体积是和立方体的体积 d9a2ba5f55d7ccb41cf52e579c7c1f093a413a63 ，所以的体积是“有趣的”。

3.d作为问题的维度，增加（使用超立方体中的超球面）这个比值为

fd22d41f8eddaef85ccc21ccf6b63fa3e44a698e

700e23946991493ac5cc6a4e4e6174939012d707

84c8ff3e84039a87c22ad5fa0bea87241ace6899

因此，假设一个有零协方差项，在原点的平均值和单位方差的多元正态分布。这些在原点有具有不同的模式（最大值），并且点和模式处的概率比为

0f8463e50208497117dbdf00484d02a365d36412

关于这个函数，任何大的值会导致概率低。所以，随着问题的维数增加，有趣的空间变得非常小。考虑在区域内采样，并且计数10,000个采样点中有多少具有大于1/1000的相对概率，其像超球面情况一样下降。

e7db32afb566ccd770ce35875ea323c168302d61

2ee73b6e5973477c5a578ced46c819ea7e277aac

为什么“正常统计”不使用蒙特卡罗方法？

对于传统讲授的统计中的许多问题，你可以最大化或最大化一个函数而不是从分布中取样。所以我们使用一些函数来描述可能性，并最大限度地提高它（最大似然推理），或一些函数计算平方和和最小化。

为了避免必须从分布中抽样，在概率估计的误差估计倾向于是渐近的大数据估计或者可能基于Bootstrap估计。

然而，蒙特卡罗方法在贝叶斯推断中所起的作用与频率统计中的优化程序相同;它只是做的推理算法。

马尔可夫链蒙特卡罗

定义

设表示在t时间一些随机变量的值。马尔可夫链起始于产生一系列样点 d52b8bc52447244a9888361f4daaa0774bbac774 ，接着一系列随机步骤。

马尔可夫链满足马尔可夫属性。马尔可夫属性是已知现在状态的条件下，将来所处的状态与过去状态无关，即“遗忘性”；基本上不管你如何达到某个状态x，x的转移概率不变：

381b38d158c5068fbe23f0218dc82c6651e7f12a

从一个步骤到下一个步骤的转换是由转移核描述，它可以由状态i到状态j的转变的概率（或连续变量的概率密度）描述为

d49a03c424b6428f453d40d693ab0041fa7e25de

表示状态 j 在 t 时间（步骤）的链的概率，并且定义

为可能的状态的概率的向量。然后，给出

，我们利用 Chapman-Kolmogorov 方程计算

。

41720fed885ea1d1235a04b62bf5bbf9f05577bf

这个概率是我们在状态k 乘以从k 到i 的转变的概率，在所有可能的状态k上求和。设P是概率转移矩阵——矩阵的第i,j元素是P(i→j)，并且将上述等式重写为 b1549831d0eb5b62f25e8ce233d04e3de7631ee6

我们可以轻松地迭代这个方程：

ecf0ffc7bb02109fcea859355f22b1bd00b568f4

平稳分布

如果有一些矢量满足

那么 $\vec\pi^$ 是这个马尔可夫链的平稳分布。直观地，认为这个系统将设置的状态的最终特征集；运行足够长的时间，该系统会“遗忘”它的初始状态，则这个向量的第i个元素是这个系统将在状态i的概率。

如果这个过程是不可约的和非周期性的，马尔可夫链将会有一个平稳分布。

在数学上，是特征值为1的左特征向量。

这里有一个快速的定义，使事情更具体（但请注意，这无关MCMC本身–这只是对马尔可夫链的观点！）假设我们有一个三态马尔可夫过程。设P为链的概率转移矩阵：

dc52e3991da20534e7b7ad147f2ce365673fb367

3c25576d712c98602ab44c04008fe3ab8e2da29d

请注意，P行的共计为一：

入口P[i,j] 给出了从状态i到状态j的概率（所以这就是上述的 P(i→j)）。

注意，与行不同，列不一定共计为1：

这个函数取一个状态向量x（其中x[i]是处于状态i的概率），并通过乘以转移矩阵P来迭代它，使系统前进n个步骤。

371a2b484436c5f230d92bde763b450fb036ea6f

从状态1中的系统开始（所以x是向量[ 1,0,0 ]，指示存在处于状态1的100％概率，并且没有处于任何其他状态的机会），并且迭代10个步骤：

同样，对于其他两个可能的起始状态：

这表明在平稳分布上的收敛性。

11fdaafd182588f887532bf2a2d372de54a4977d

这意味着不管起始分布如何，不管它在哪里开始，在大约10次或更多次迭代之后，链处于状态1的概率为32％。

我们可以用R的特征函数来提取系统的主导特征向量（这里的t()转置矩阵得到左特征向量）。

然后添加点到之前显示我们接近收敛的图中：

05fcb68304e9089ee7fd4a482e33c84c3847e7ea

5a023d6ae98e9eb9ae72d63e108d8d2db5f2bb15

根据特征向量的定义，乘以特征向量的转移矩阵返回特征向量本身：

（严格地说，这应该是由V相乘的特征值，但这些矩阵的主特征值总是1）。

在这里运行的函数用一个状态（这一次，只是一个整数代表其中系统的状态1,2,3），如上相同的转移矩阵，和一些运行的步骤。每个步骤，查看可能转换到的地方，并选择1（这使用R的样本函数）。

7b5f41c5dc8c3ce560220f3240a33cc8fca466cd

这是100步左右的链：

6240eb59da9b5cc4d45f3b4493e3c13ab5c766da

绘制我们在每个状态随着时间的推移的时间分数。

aeb79753f120c5aaaf63a4f7a310335dd41c97ac

3a39ad0f38d87acd3e8accecf91834288e3cffc8

运行这步再长一点（5000步）

c56f498964ee8a478815e0d27c6890d4aca61c2d

aa6ad36ad506b257a53a2df1d33440390c4d7016

存在稳定分布的充分（但不是必要的）条件是细致平衡，其为：

dd8d0935af75ef6de80be93d2acab8e9ec1d80d0

这意味着链是可逆的。这种情况意味着一个平稳分布存在的原因是

将状态j的细致平衡方程的两侧求和

6dc39dfac306b31bf3280a596927cb8b7a3a87a8

左边的项等于 c924d1d82fb3eb8c64662b2e64b8155963677adc 的第k个元素，右边的项可以作为因子

b929e58145a44bc8eee3cf7b9f8ea3a370838e64

然后，因为因为P是一个转移概率函数，由总概率定律决定，概率为1）所以右边是 ad1b30780c6047e172271813de74b444f8687275

，所以我们有

9d58224bb33278916409bd702cc398d9da0a232d

其适用于所有k，所以

马尔可夫链具有平稳分布，如果我们运行它们足够长的时间，我们可以看看链在哪里花费时间，并得到该平稳分布的合理估计。

Metropolis算法

这是最简单的MCMC算法。我们要做的是具有一些我们想要采样的分布，并且我们将能够评估与目标分布的概率密度成比例的函数f(x)（也就是说，如果 p(x)是概率密度函数本身，，即f(x)= p(x)/ Z，其中Z =∫f(x)dx。注意，x可以是向量或标量。

我们还需要一个概率密度函数P，我们可以从中抽取样本。对于最简单的算法，建议分布是对称的，即P(x→x’)= P(x'→x)。

该算法如下进行。

1.在一些状态下启动t。

2.创建新状态x'

3.计算“接受概率”α= min[1,f(x’)f(x)]

4.从[0,1]中绘制一些均匀分布的随机数u; 如果u<α，接受该随机数，设置 $x{t+1} = x^\prime。否则拒绝它并设置x{t+1}=x_t$ 。

注意，在上面的步骤3中，未知的归一化常数丢失，因为

1ecd9a30cc07d58b130954db23d0e5ccdb84c58b

这将生成一系列样本 ${x0，x1，\ldots}$ 。在所提出的样本被拒绝的情况下，相同的值将存在于连续样本中。

这些不是来自目标分布的独立样本，它们是依赖样本。也就是说，样本 99bb89244540e46aeab02213e8dce35a72166e13 取决于，等等。然而，因为链接近稳定分布，所以只要我们采样足够的点，这种依赖就没有关系。

MCMC采样在1d（单参数）问题

这是从中抽样的目标分布，它是两个正态分布的加权和。概率密度函数是

3def1e4a168db3375ba064975abee63cea8d2c0f

这是一个人为的例子，但是这样的分布不是完全不可能的，并且可能出现在从混合物中采样东西时。

这里有一些参数和目标密度的定义。

28c3ec6f3421a4c618f782eac5e2792857f6345d

这里是概率密度绘制在“重要”领域的一部分

283caac2b7ae6eddc1cc95170b3e3a523cd2d606

让我们定义一个非常简单的建议的算法，从一个正态分布为中心的电流点的标准偏差为4

这实现了核心算法，如上所述：

9ba8ddb558eaea7dbd6dc68b54efb0c0e665fe47

这只是运行MCMC的一些步骤。它将在点x处开始返回一个具有nsteps行的矩阵，并且具有与x相同的列数。如果在标量x上运行，它将返回一个向量。

e19769120c9275cec17bcc4a85166165721e8cbc

我们选择一个地方开始（-10好了）

这里是马尔可夫链的前1000步，目标密度在右边：

b04f6e2a360a3848387b3cc1b5074550640f86f7

5c2aadf0ac33f26fbbc7e7d5644fd41d7323f656

即使只有一千个（非独立的）样本，我们开始类似的目标分布。

c1b898e6472c66ca9e402de8c453f261199ece36

98952b6bd1fdfa8b00fdba58979d9bb044b32ab2

运行更长时间会看起来更好一些：

9c6933c4c59cfc53bdf4b9090312e2af253a91d8

a62a836088274dabc24022540c37c6b24cabef51

现在，运行不同的建议机制——一个具有非常宽的标准偏差（33个单位），另一个具有非常小的标准偏差（3个单位）。

这里是和上面相同的图——注意三个轨迹移动的不同的方式。

a689eed9fc7c0f2a03a1b7850cabc4fb60290fb6

d26b870f61f4d9f08298bc92a187d00f5a0553b7

灰线轨迹相当自由地弹跳。

相反，红色轨迹意味着它倾向于长期呆在一起的时间。

蓝色轨迹倾向于小移动，它对于大多数轨迹随机行走而移动。它需要数百次迭代甚至达到大部分的概率密度。

你可以在后续参数之间的自相关中看到不同建议步骤的效果——这些图表示不同滞后的步长之间的自相关系数的衰减，蓝色线表示统计独立性。

e72cd09f5d103088e4d062f07b7b801324565007

16c1a3f6bbb6af20ecc26202a320280d857b88c5

由此，可以计算独立样本的有效数量：

039007998c8460bcfaf5562754e4bb42f6585479

两个“混合”的链比第一个更差。

这更清楚地显示了链运行更长时间会发生什么：

08cf83bf3cc3987f4e28cd6869b6693c58f0f4a8

显示100，1,000，10,000和100,000步：

3436583a2c6071ac5430385564352c8eb7b5f20e

3f48400c2e453fac8c8875e030c7bda6aaa49313

MCMC在二维中

这是一个给定装置（分布的中心）和方差 - 协方差矩阵的向量的多变量法向密度的函数。

593bb90bd2d74fd75d049287dc65e14abc0ce47f

如上所述，将目标密度定义为两个mvns的总和（此时未加权）：

6bb1269aee427d8cc6ed0e2624fb8c89f32e79b3

fd7eac84c7458083a4eb74c6f1a78dc769a4772e

这里有一系列不同的策略——我们建议同时在两个维度上的移动，或者我们可以独立地沿着每个轴进行采样。这两种策略都会奏效，但是它们的组合速度会有所不同。

假设我们实际上不知道如何从mvn中抽样，让我们做一个方案，在两维分布均匀，从宽度为d的正方形采样。

fab8058dbf162401d276e740f52eea985df0640f

a0fc969a5666325678c4ffd86ff042ac2476c9e8

绘制样品

将抽样分布与已知分布进行比较：

f801dc5458e841f08b4e030262f3890b36adb218

然后，我们可以轻松地用难以直接做的样本做事情。例如，参数1的边际分布是什么：

8879fda695e51942c6951f84b0917abf814b526a

（这是第一参数采用的分布，对第二参数可能采用的所有可能的值求平均，由它们的概率加权）。

正确地计算这一点是很复杂的，我们需要将第一个参数的第二个参数的所有可能的值合并到第一个值中。然后，因为目标函数本身不是归一化的，所以我们必须将它除以第一维上的积分值（这是分布下的总面积）。

44f24e5aebfac3613813bc8a294bb7740f693f44

aaa423e37f5647583a19f3b74f695e292802553c

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

文章原标题《Markov Chain Monte Carlo》，作者：Rich FitzJohn 文章为简译，更为详细的内容，请查看原文

文章标签：

算法

机器学习/深度学习

关键词：

人工智能平台 PAI算法

机器学习算法

算法蒙特卡罗

机器学习平台 PAI算法

人工智能平台 PAI蒙特卡罗

【方向】

目录

相关文章

龙大吉

|

4月前

|

机器学习/深度学习算法数据挖掘

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理，包括初始化、数据点分配与簇中心更新等步骤，以及如何在Python中实现该算法，最后讨论了其优缺点及应用场景。

龙大吉

247 6 6

简简单单做算法

|

27天前

|

机器学习/深度学习算法数据安全/隐私保护

基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络

本项目展示了人脸识别算法的运行效果（无水印），基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络（GRNN）、概率神经网络（PNN）、深度神经网络（DNN）和反向传播（BP）神经网络在人脸识别中的应用，涵盖各算法的结构特点与性能比较。

简简单单做算法

45 9 9

技术小达人

|

23天前

|

人工智能编解码算法

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

技术小达人

26 0 0

Echo_Wish

|

2月前

|

机器学习/深度学习人工智能算法

机器学习算法的优化与改进：提升模型性能的策略与方法

机器学习算法的优化与改进：提升模型性能的策略与方法

Echo_Wish

496 13 13

机器学习算法的优化与改进：提升模型性能的策略与方法

楠竹11

|

2月前

|

机器学习/深度学习算法网络安全

CCS 2024：如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

在2024年CCS会议上，苏黎世联邦理工学院的研究人员提出，当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施（HAMP、RelaxLoss、SELENA、DFKD和SSL），发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳，而强大的差分隐私基线则提供了更好的隐私-效用权衡。

楠竹11

71 14 15

平凡程序猿~

|

1月前

|

机器学习/深度学习人工智能自然语言处理

解锁机器学习的新维度：元学习的算法与应用探秘

元学习作为一个重要的研究领域，正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法，研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入，元学习有望在人工智能的未来发展中发挥更大的作用。

平凡程序猿~

46 0 0

pai_rec_coder

|

3月前

|

算法

PAI下面的gbdt、xgboost、ps-smart 算法如何优化？

设置gbdt 、xgboost等算法的样本和特征的采样率

pai_rec_coder

132 2 2

龙大吉

|

4月前

|

机器学习/深度学习算法数据挖掘

C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出

本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用，以及与Python等语言结合使用的案例，展望了其未来发展的挑战与机遇。

龙大吉

97 1 1

花开花落的世界

|

4月前

|

机器学习/深度学习自然语言处理算法

深入理解机器学习算法：从线性回归到神经网络

深入理解机器学习算法：从线性回归到神经网络

花开花落的世界

136 2 2

G0518

|

4月前

|

机器学习/深度学习算法

深入探索机器学习中的决策树算法

深入探索机器学习中的决策树算法

G0518

73 0 0

热门文章

最新文章

DeepSeek加持的通义灵码2.0 AI程序员实战案例：助力嵌入式开发中的算法生成革新

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

生成式 AI 大语言模型（LLMs）核心算法及源码解析：预训练篇

算法系列之分治算法

.NET 平台 SM2 国密算法 License 证书生成深度解析

基于生物地理算法的MLP多层感知机优化matlab仿真

基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM

算法系列之广度优先搜索解决妖怪和尚过河问题

基于PSO粒子群优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真

基于贝叶斯优化的自适应马尔科夫链蒙特卡洛(Adaptive-MCMC)算法matlab仿真

从零到精通：Scikit-learn在手，数据分析与机器学习模型评估不再难！

揭秘Python数据分析神器：Scikit-learn库，让你的模型训练如虎添翼！

Prompt工程问题之通过prompt使AI输出的语言风格多变如何解决

智能化运维的崛起：机器学习在IT管理中的实践与挑战

智能化运维的崛起：机器学习在IT基础设施管理中的应用

探索机器学习在金融技术中的应用

探索机器学习：从理论到实践的旅程

从菜鸟到高手，一图胜千言！Python数据分析与机器学习中的数据可视化实战秘籍！

探索机器学习在金融领域的应用及其挑战

数据挖掘和机器学习算法

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

神经网络概览及算法详解

相关电子书

更多

机器学习在恶意样本检测方面的实践之路

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

使用Swing算法实现商品推荐

下一篇

阿里云oss简介和如何对接使用