《贝叶斯思维:统计建模的Python学习法》一1.5 历时诠释

简介:

本节书摘来自异步社区《贝叶斯思维:统计建模的Python学习法》一书中的第1章,第1.5节,作者【美】Allen B. Downey,更多章节内容可以访问云栖社区“异步社区”公众号查看

1.5 历时诠释

还有另外一种理解贝叶斯定理的思路:它给我们提供的是一种根据数据集D的内容变化更新假设概率H的方法。

这种对贝叶斯定理的理解被称为“历时诠释”。

“历时”意味着某些事情随着时间而发生;在本例,即是假设的概率随着看到的新数据而变化。

在考虑H和D的情况下,贝叶斯定理的表达式可以改写成:


4358b38971e8b7f371105c240831edc576bcad18

在这种解释里,每项意义如下:

  • p(H)称为先验概率,即在得到新数据前某一假设的概率。
  • p(H |D)称为后验概率,即在看到新数据后,我们要计算的该假设的概率。
  • p(D|H)是该假设下得到这一数据的概率,称为似然度。
  • p(D)是在任何假设下得到这一数据的概率,称为标准化常量。

有些情况,我们可以基于现有背景信息进行计算。比如在曲奇饼问题中,我们就将随机选中碗1或碗2的概率假设为均等。

在其他情况下,先验概率是偏主观性的;对某一先验概率,理性派的人可能会有不同意见,或许由于他们使用不同的背景信息做出判断,或者因为他们针对相同的前提条件做出了不同的解读。

似然度是贝叶斯计算中最简单的部分,在曲奇饼问题中曲奇饼来自来自哪个碗,则我们就计算那个碗中香草曲奇饼的概率。

标准化常量则有些棘手,它被定义为在所有的假设条件下这一数据出现的概率,但因为考虑的正是最一般的情况,所以不容易确定这个常量在具体应用场合的现实意义。

最常见的,我们可以指定一组如下的假设集来简化。

互斥的:集合中,至多一个假设为真。

完备的:集合中,至少一个假设必为真,且集合包含了所有的假设。

我使用suite这个词来表示具备上述属性的假设集。

在曲奇饼问题中,仅有两个假设:饼干来自碗1或者碗2,它们就是互斥的和完备的。

在本例中,我们可以用全概率公式计算p(D),即如果发生某一事件有互不容的两个可能性,可以像下面这样累加概率:


0731447bc04aa3a6d901e849e098b07425fb4ce7

代入饼干问题中的实际值,得到:


32c304caa01ab40bbf8288c3c7cb9a6c6a8b3788

我们早前心算得到的结果也是一样的。

相关文章
|
1月前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行自然语言处理和主题建模,首先通过`pip install gensim`安装库,然后导入`corpora`, `models`等模块。对数据进行预处理,包括分词和去除停用词。接着,创建字典和语料库,使用`Dictionary`和`doc2bow`。之后,应用LDA算法训练模型,设置主题数量并创建`LdaModel`。最后,打印每个主题的主要关键词。可以根据需求调整参数和选择不同算法。
26 0
|
2月前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
56 0
|
4天前
|
机器学习/深度学习 数据挖掘 网络架构
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
15 0
|
11天前
|
自然语言处理 数据可视化 Python
python主题建模可视化LDA和T-SNE交互式可视化
python主题建模可视化LDA和T-SNE交互式可视化
16 0
|
15天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
19天前
|
数据采集 存储 人工智能
【python】python汽车效能数据集—回归建模(源码+数据集)【独一无二】
【python】python汽车效能数据集—回归建模(源码+数据集)【独一无二】
|
20天前
|
测试技术 Python
288统计出现最多次的字母(PYTHON)
288统计出现最多次的字母(PYTHON)
|
1月前
|
存储 数据管理 Serverless
Python实现:教你轻松统计文件夹下文件个数
Python实现:教你轻松统计文件夹下文件个数
27 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
62 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
45 0