中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.3 最优传输映射的逼近算法-阿里云开发者社区

中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.3 最优传输映射的逼近算法

2017-09-01 3590

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.3 最优传输映射的逼近算法

近年来，依随 Internet 技术的发展，人类已经积累了大量的视觉数据，这使得估计各种概率分布成为可能。同时，GPU 技术的发展，使得各种统计计算方法的实现成为可能。因此，我们迎来了机器学习的科技大潮。但是，我们依然无法严密解释机器学习算法的有效性。从基础理论角度而言，研究概率分布的一个强有力工具是最优传输理论（optimal mass transportation theory），这个理论着重揭示概率分布这一自然现象的内在规律，因此并不从属于某个学派，也不依赖于具体的算法。相反，这一理论会为算法的发展提供指导，同时真正合理有效的算法（例如机器学习算法），应该可以被传输理论来解释。

简而言之，传输理论给出了概率分布所构成空间的几何。给定一个黎曼流形，其上所有的概率分布构成一个无穷维的空间：Wasserstein 空间，最优传输映射的传输代价给出了 Wasserstein 空间的一个黎曼度量。Wasserstein 空间中的任意两点可以用 Wasserstein 距离来测量相近程度，自然也可以用测地线来插值概率分布。每个概率分布有熵，沿着测地线熵值的变化规律和黎曼流形的曲率有着本质的关系。

但在实际计算中，高维的最优传输映射， Wasserstein 距离的计算相对复杂。一个自然的想法是降维，将高维空间的概率分布投影到低维子空间，在低维空间上计算边际分布之间的变换。这有些象盲人摸象，每次得到局部信息，如果摸得充分，我们也可以恢复大象的整体信息。

在视觉问题中，通常图像全空间的维数非常高，计算难度较高。因此，我们可以放弃理论上的最优性，寻找更加简单有效，同时又和最优传输映射近似的算法。下面我们就讨论这些更为实用的算法及其背后的理论。

1. 直方图均衡化

2. 迭代分布传输算法

3. 投影 Wasserstein 距离梯度下降法

4. 逼近算法的局限性和脆弱性

拉东变换将联合概率分布转换成向所有一维子空间投影所得的边际概率分布，从而实现了降维，简化了计算。但是，如果有一些子空间的边际分布缺失，我们无法精确恢复原来的联合分布。在视觉问题中，每个线性子空间被视为一个特征，向子空间投影，等价于特征提取。

深度神经网在解决视觉分类问题中表现出色，但是也非常容易被愚弄。如图 20 所示，人类可以轻易看出这些是非自然图像，在现实生活中不具有任何意义。但是深度神经网络非常自信地将它们归结为训练过的类别。如果以欣赏现代抽象艺术的心态来研究这些图像，我们能够领会到深度神经网络分类结果的内在合理性：这些图像的确具有它们所对应类别的内在“神韵”。从纹理层次而言，它们和对应类别的纹理非常“神似”；从语义层面而言，这些图像则是无意义的和荒谬的。

对此我们可以给出一种解释，那就是投影子空间选得不够，因此即便是在这些子空间上边际概率分布相似，但是联合概率分布依然相差很大。深度神经网所得到的训练集是自然图像，图 21 所示的这些图像都在自然图像空间之外，但是投影在所选择的子空间后，自然图像和非自然图像无法进行分别。由此，引发了深度神经网络脆弱性。

5. 讨论

人类的低级视觉在很大程度上依赖于统计特性，因此可以归结为对概率分布的处理和演算。人脑是否真的在计算最优传输映射、计算 Wasserstein 距离？在历史上人类经常首先发现某些数学原理，然后又发现这些原理在生物器官上早已应用。例如，人类首先发现了傅里叶分解原理，然后发现人类耳蜗神经结构就是在对声音信号进行傅里叶分解；又如，人类首先发现了保角变换（共形变换），后来发现从视网膜到第一级视觉中枢的映射就是保角变换，如图 21 所示。这项工作曾经获得过诺贝尔奖。因此，如果若干年后人们证实大脑的确是在计算概率分布之间的距离，我们也不会觉得意外。

因此，我们相信在一些视觉应用中，深度神经网络隐含地构建概率模型，可以直接用概率的工具，例如最优传输理论及其各种降维近似，直接取代神经网络，从而使得机器学习的黑箱变得透明。

中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.3 最优传输映射的逼近算法

1.3 最优传输映射的逼近算法

1. 直方图均衡化

2. 迭代分布传输算法

3. 投影 Wasserstein 距离梯度下降法

4. 逼近算法的局限性和脆弱性

5. 讨论

热门文章

最新文章

相关课程

相关电子书

相关实验场景