白话LDA隐式狄里克雷分布模型-阿里云开发者社区

白话LDA隐式狄里克雷分布模型

2019-05-12 1943

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天应学弟要求，又回顾了下LDA模型，陡然发现之前弄懂弄通的一些地方竟然开始有些生疏，果然还是得记录总结。好记性不如烂笔头，于是将LDA模型又从头梳理了一下，有些体会，记录下来以下尽可能不用代码也不用公式还原LDA模型的思想原貌 LDA全景图 1.

今天应学弟要求，又回顾了下LDA模型，陡然发现之前弄懂弄通的一些地方竟然开始有些生疏，果然还是得记录总结。

好记性不如烂笔头，于是将LDA模型又从头梳理了一下，有些体会，记录下来

以下尽可能不用代码也不用公式还原LDA模型的思想原貌

lda
LDA全景图

1.LDA解决的问题：

如何自动的从一批文档中，找出文档表达的n个主题思想？

2.LDA的假设：

任何模型都是对现实世界的一种假设，所以想要掌握一个模型，先了解它的假设是什么

LDA模型的假设基础就是：关键词在文档中出现的概率 = 关键词在主题中出现的概率 * 主题在文档中出现的概率

本质上还是贝叶斯统计推断

3.解决问题的思路：

不管是数学公式还是伪代码，本质上都是对解决问题思路的描述，搞学术的容易陷入纯数学的表达，搞工程的容易陷入纯代码的表达，

所以要进一步理解模型，就必须透过公式或代码，理解其解决问题的思路

LDA模型的思路又是什么呢？

3.1. 问题分解：

1.如何找到一篇文档中的主题思想？

2.如何求解所有文档主题思想的个数n?

3.2. 问题分析：

所以，LDA模型实际上是一口气解决了两个问题

对于 问题1，这个好办，我们可以挖掘出频率高有意义的关键词来指代文档的主题；

但这也就意味着一篇文章可能同时会有多个主题

对于 问题2，如果一篇文章只有一个主题，这事就好办了，我们可以用kmeans聚类的方式从1,2,3……n逐个尝试，找到匹配度最高的n

现在我们需要考虑一对多问题

我们就再假设，在这堆文档中主题的数量应该也是服从某种分布的，可能是正态分布，可能是伽马分布，暂时不知道

于是我们同样可以将这些分布逐一尝试，看看哪种分布的匹配度最高？

3.3. 解决方案：

于是解决方案就出来了

第一步 先找出每篇文档的所有主题（用关键词组表示）

第二步 再从分布函数中随机选择一个分布去匹配现有文档的主题数量，算出一个匹配度

第三步 不断尝试新的分布函数，直到匹配度最大为止

4.回到数学：

回到数学上，我们就会发现有很多博主苦口婆心的写了一堆公式，但大家还是看不懂，主要原因就是主次不分，总是过分强调细节

其实整体原理很简单，不是吗？接下来我们再对该模型中使用的关键技术对号入座，细节就不展开了，有兴趣大家可以自行搜索

4.1 对号入座

狄里克雷(Dirichlet)分布 就是对应 3.3 第二步中的分布函数，这个Dirichlet可以通过调参的方式模拟任意分布

Gibbs采样 简单来说，重复的按一定规则从数据中随机选取k个样本的过程就叫Gibbs采样，对应到 3.3 不断尝试新的分布函数，就是需要不断试验，不断采样
Gibbs

变分推断EM 对应到 3.3 第二步中计算匹配度及第三步使得匹配度最大

4.2 技术质疑

为什么是狄里克雷分布？ 因为这是目前为止数学家发明的最好的分布函数模拟工具

为什么要用Gibbs采样？ 因为这是目前为止最科学使用最广泛的采样手段

为什么要用变分推断EM？ 因为客观事物不可能完美的服从某种分布，只能做近似推断，而变分法同样是目前最好的近似推断工具

5.总结

所以LDA，顾名思义，也就是挖掘隐含的狄里克雷分布的一个过程

5.1. 优点：

通过非常直观的思维逻辑，解决了看似复杂的文本主题聚类的问题

5.2. 缺点：

非常依赖于数据，数据量如果太小，可能不会太凑效

5.3. 发散：

这种分布推理机器，未来是否可以与神经网络有很好的结合点呢？我们拭目以待