深度学习导论及案例分析》一2.3信息论的基本概念-阿里云开发者社区

深度学习导论及案例分析》一2.3信息论的基本概念

2017-05-02 1515

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： #### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第1章，第1.1节，作者李玉鑑张婷，更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3信息论的基本概念一般认为，信息论开始于1948年香农（Claude Elwood Shannon）发表的论文《通信的数学原理》［96］。

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章，第2.3节，作者李玉鑑张婷，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3信息论的基本概念

一般认为，信息论开始于1948年香农（Claude Elwood Shannon）发表的论文《通信的数学原理》［96］。熵（entropy）是信息论的一个基本概念。

离散随机变量X的熵定义为
H（X）=∑x∈val（X）P（x）logP（x）（2.45）
两个离散随机变量X和Y的联合熵（joint entropy）定义为
H（X，Y）=∑x∈val（X）∑y∈val（Y）P（x，y）logP（x，y）（2.46）
在给定随机变量X的情况下，随机变量Y的条件熵（conditional entropy）定义为
H（YX）=∑x∈val（X）P（x）H（YX=x）=∑x∈val（X）P（x）-∑y∈val（Y）P（yx）logP（yx）

=-∑x∈val（X）∑y∈val（Y）P（x，y）logP（x，y）（2.47）
关于联合熵和条件熵，有熵的链式法则（chain rule for entropy），即
H（X，Y）=H（X）+H（YX）（2.48）

H（X1，X2，…，Xn）=H（X1）+H（X2X1）+…+H（XnX1，…，Xn-1）（2.49）
两个随机变量X和Y的互信息定义为
I（X，Y）=H（X）-H（YX）=H（X）+H（Y）-H（X，Y）

=∑x，yP（x，y）logP（x，y）P（x）P（y）≥0（2.50）
两个概率分布P（X）和Q（X）的KL散度（KullbackLeibler divergence），又称相对熵，定义为
KL（PQ）=∑x∈val（X）P（x）logP（x）Q（x）=EPP（x）Q（x）（2.51）
显然，当两个概率分布完全相同，即P=Q时，其相对熵为0。当两个概率分布的差别增加时，其相对熵将增大。此外，联合相对熵和条件相对熵也存在所谓的链式法则：
KL（P（X，Y）Q（X，Y））=KL（P（X）Q（X））+KL（P（YX）Q（YX））（2.52）
如果用模型分布Q（X）来近似一个未知概率分布P（X），那么还可以用交叉熵（cross entropy）来表达模型分布对未知分布的逼近程度：
CE（P，Q）=H（X）+KL（PQ）=-∑x∈val（X）P（x）logQ（x）=EPlog1Q（x）（2.53）

深度学习导论及案例分析》一2.3信息论的基本概念

2.3信息论的基本概念

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景