《贝叶斯思维:统计建模的Python学习法》——1.6 M&M豆问题

简介:

本节书摘来异步社区《贝叶斯思维:统计建模的Python学习法》一书中的第1章,第1.6节,作者:【美】Allen B. Downey,更多章节内容可以访问云栖社区“异步社区”公众号查看

1.6 M&M豆问题

M&M豆是有各种颜色的糖果巧克力豆。制造M&M豆的Mars公司会不时变更不同颜色巧克力豆之间的混合比例。

1995年,他们推出了蓝色的M&M豆。在此前一袋普通的M&M豆中,颜色的搭配为:30%褐色,20%黄色,20%红色,10%绿色,10%橙色,10%黄褐色。这之后变成了:24%蓝色,20%绿色,16%橙色,14%黄色,13%红色,13%褐色。

假设我的一个朋友有两袋M&M豆,他告诉我一袋是1994年,一袋是1996年。

但他没告诉我具体哪个袋子是哪一年的,他从每个袋子里各取了一个M&M豆给我。一个是黄色,一个是绿色的。那么黄色豆来自1994年的袋子的概率是多少?

这个问题类似于曲奇饼问题,只是变化了我抽取样品的方式 (碗还是袋)。这个问题也给了我一个机会演示纸面方法:也就在仅仅在纸上画画就可以解决类似这样的问题(译注:作者为后续章节的计算型方法铺垫)。在下一章中,我们将以计算方法解这些问题。

第一步是枚举所有假设。取出黄色M&M豆的袋子称为袋1,另一个称为袋2,所以假设是:

A:袋1是1994年的,袋2是1996年的。
B:袋1是1996年的,袋2是1994年的。
接着我们设计一个表格,每行表示每个假设,每列表示贝叶斯定理中的每一项:

df856501a70bd0e134e0b91aed61304396c91322

第一列表示先验。基于问题的声明,选择p(A)=p(B)= 1/2是合理的。

第二列表示似然度,表明了问题的背景信息。举例来说,如果A为真,黄色M&M是来自1994年的袋概率20%,而绿色来自1996包的概率为20%。因为选择是独立的,我们将其相乘以得到联合概率。

第三列由前两列得到。此列的总和270是归一化常数(译注:参考全概率公式)。为了得到最后一列的后验概率,我们将第三列的值归一化后得到第四列的值。

就是这样。简单吧?

还有,你可能会被一个细节所困扰。我将p(D|H)写成了百分数的形式而不是概率形式,这意味着它没有除以因子10000。但是当我们将其除以归一化常数时就抵消了,因此这不影响结果。

当设定的假设是互斥和穷举的,你可以将似然度乘以任何因子,如果方便,将同一个因子应用到整列上。

相关文章
|
2月前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
51 0
|
4天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
9天前
|
测试技术 Python
288统计出现最多次的字母(PYTHON)
288统计出现最多次的字母(PYTHON)
|
29天前
|
存储 数据管理 Serverless
Python实现:教你轻松统计文件夹下文件个数
Python实现:教你轻松统计文件夹下文件个数
22 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
55 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
40 0
|
2月前
|
自然语言处理 安全 Unix
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
43 0