深度学习导论及案例分析》一2.3信息论的基本概念

简介: #### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第1章,第1.1节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3信息论的基本概念 一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.3节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3信息论的基本概念

一般认为,信息论开始于1948年香农(Claude Elwood Shannon)发表的论文《通信的数学原理》[96]。熵(entropy)是信息论的一个基本概念。

离散随机变量X的熵定义为
H(X)=∑x∈val(X)P(x)logP(x)(2.45)
两个离散随机变量X和Y的联合熵(joint entropy)定义为
H(X,Y)=∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.46)
在给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)定义为
H(YX)=∑x∈val(X)P(x)H(YX=x)=∑x∈val(X)P(x)-∑y∈val(Y)P(yx)logP(yx)

=-∑x∈val(X)∑y∈val(Y)P(x,y)logP(x,y)(2.47)
关于联合熵和条件熵,有熵的链式法则(chain rule for entropy),即
H(X,Y)=H(X)+H(YX)(2.48)

H(X1,X2,…,Xn)=H(X1)+H(X2X1)+…+H(XnX1,…,Xn-1)(2.49)
两个随机变量X和Y的互信息定义为
I(X,Y)=H(X)-H(YX)=H(X)+H(Y)-H(X,Y)

=∑x,yP(x,y)logP(x,y)P(x)P(y)≥0(2.50)
两个概率分布P(X)和Q(X)的KL散度(KullbackLeibler divergence),又称相对熵,定义为
KL(PQ)=∑x∈val(X)P(x)logP(x)Q(x)=EPP(x)Q(x)(2.51)
显然,当两个概率分布完全相同,即P=Q时,其相对熵为0。当两个概率分布的差别增加时,其相对熵将增大。此外,联合相对熵和条件相对熵也存在所谓的链式法则:
KL(P(X,Y)Q(X,Y))=KL(P(X)Q(X))+KL(P(YX)Q(YX))(2.52)
如果用模型分布Q(X)来近似一个未知概率分布P(X),那么还可以用交叉熵(cross entropy)来表达模型分布对未知分布的逼近程度:
CE(P,Q)=H(X)+KL(PQ)=-∑x∈val(X)P(x)logQ(x)=EPlog1Q(x)(2.53)
相关文章
|
1天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
19天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
|
20天前
|
机器学习/深度学习 并行计算 算法
R语言深度学习不同模型对比分析案例
R语言深度学习不同模型对比分析案例
|
21天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
|
21天前
|
机器学习/深度学习 数据采集 算法
Python中基于网格搜索算法优化的深度学习模型分析糖尿病数据
Python中基于网格搜索算法优化的深度学习模型分析糖尿病数据
|
3月前
|
机器学习/深度学习 人工智能 物联网
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进,还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT), 也出现了直接应用于时间序列的可能性的LLM,以及新形式的时间序列正则化/规范化技术(san)。
80 1
|
3月前
|
机器学习/深度学习
分享3个深度学习练手的小案例
分享3个深度学习练手的小案例
22 0
|
5月前
|
机器学习/深度学习 传感器 自动驾驶
【计算机视觉】一、多任务深度学习网络的概念及在自动驾驶中的应用讲解(图文解释 超详细)
【计算机视觉】一、多任务深度学习网络的概念及在自动驾驶中的应用讲解(图文解释 超详细)
47 0
|
5月前
|
机器学习/深度学习 存储 算法
强化深度学习中使用Dyna-Q算法和优先遍历算法在机器人实战中的对比分析(超详细 附源码)
强化深度学习中使用Dyna-Q算法和优先遍历算法在机器人实战中的对比分析(超详细 附源码)
32 0
|
6月前
|
机器学习/深度学习 数据采集 算法
基于LSTM深度学习网络的时间序列分析matlab仿真
基于LSTM深度学习网络的时间序列分析matlab仿真