《R语言数据挖掘:实用项目解析》——第2章,第2.8节假设检验

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第2章,第2.8节假设检验,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.8 假设检验
零假设意味着什么都没有发生、平均值是恒定的,等等。对立假设则意味着有什么发生了,且平均值与总体有所不同。进行假设检验的步骤如下:
1)提出零假设:提出关于总体的假设。例如,平均市内行车英里数为40。
2)提出对立假设:如果证明零假设是错的,那么其他情况的概率有多大?例如,如果市内行车英里数不是40,那是大于40,还是小于40?如果不等于40,则这是一个非定向对立假设。
3)计算样本检验统计:检验统计可以是t-检验、f-检验、z-检验等。根据数据适用性和先前提出的假设选择恰当的检验统计。
4)确定置信区间:有90%、95%和99%三个置信区间,根据相关的特定业务问题的准确率而定。置信区间的水平由研究人员或分析师来确定。
5)确定显著性水平:如果置信区间是95%,则显著性水平将为5%。由此可见显著性水平的确定将有益于计算检验的p值。
6)结论:如果选择的p值小于显著水平值,则有理由否定零假设;否则,我们将认可零假设。

2.8.1 总体均值检验
根据前面的检验假设步骤,以Cars93为例来检验总体平均值。
已知方差情况下的单尾均值检验
假设某研究人员声明样本采集的所有汽车平均行车里程数超过35。在有93辆汽车的样本中,观察到所有汽车平均行车里程数为29。你应该认可,还是否定该研究人员的声明?
接下来的代码将解释你应该怎样对此下结论:


9fc41ccc1df2489e71620019ef8a3290b6278021


c098acdd79a7a23b3eed51f9f123ebbe0ecf8d5c

下面介绍在已知方差情况下对样本数据的总体均值进行单尾和双尾比例检验分析。
单尾和双尾比例检验
利用数据集Cars93,假设40%的美国产汽车的RPM(最大马力时的每分钟转速)超过5000。从样本数据得知,57辆汽车中有17辆的RPM超过5000。从上文你可得到什么解释?


e81f5a0da3fcebbd9689d724de5fae76d242f698


b988f3e92d59885833e9a1485b1d60d7aac5e522

如果对立假设是非定向假设,那么这就是双尾比例检验的例子。之前的计算不会有改变,除了临界值的计算。详细代码如下:


bffe7923c53748b09556375cca08b1a1f4dd8f1d

对连续型数据的双样本成对检验:用于双样本成对检验的零假设是指假设一个过程对研究对象没有影响、试验对试验对象没有影响,等等。对立假设声明存在过程的显著统计影响、试验的有效性或在对象上的作用。
虽然在Cars93中没有这样的变量,我们仍然假设在不同汽车品牌的最小价格和最大价格之间有成对关系。
双样本t检验的零假设:平均价格无差异。
对立假设:平均价格有差异。


dd193622edfc33ddc4b6da92a8b4d73a59378f99

由于p值小于0.05,因此最大价格和最小价格之差在95%置信区间内有显著差异。
对连续型数据的双样本不成对检验:假设在Cars93数据集中高速路的里程数和市内里程数是有差别的。如果两者有显著差异,可以通过独立的样本t检验来比较各自的平均值。
零假设:高速路的MPG和市内的MPG没有差别。
对立假设:高速路的MPG和市内的MPG有差别。


e616d9b90d64d84c20914d622e330cca23cde4eb

由双样本t检验可知,当两个样本相互独立时,p值小于0.05,所以我们可以否定假设高速路和市内的平均里程数无差别的零假设,即高速路和市内的平均里程数有显著差异。这可用略微不同的方法展现出来,即零假设手动挡与自动挡汽车各自的市内平均行车里程数不同:


f4dfec303bdec7a783ea2b7d4dac1938794fbb17

从以上的检验可知,结论自动挡与手动挡汽车的市内平均行车里程数有显著差异,因为p值小于0.05。
在进行t检验之前,检查数据的正态性非常重要。一个变量的正态性可用Shapiro检验函数检测:


b70f494a01b721cf61de28c12a658fceb1f0cdb5


57f68a79d65e250ab6f0d6c3dda8682c9db96846

由市内每加仑行车里程数的正态分位图和直方图可知,里程数变量没有呈正态分布。因为该变量不是正态分布的,所以需要采取非参数方法比如Wilcoxon符号秩检验或Kolmogorov-Smirnov检验。

2.8.2 双样本方差检验
比较双样本的方差,采用F检验作为统计量:


b0ad096bc24c4391924305ec9a2afd2cc32e8e83

因为p值小于0.05,我们可以否定手动挡与自动挡汽车在高速路的里程数的方差无差异的零假设。这表明两个样本的方差有95%置信水平的统计显著差异。
这两组样本的方差还可以用Bartlett检验测出:


8eeae7ed3551f1248d62e9b0a1f6249f160b9568

由以上检验也可以得出这样的结论,即关于方差相同的零假设可在0.05的显著性水平拒绝,可证明这两组样本有显著差异。
单因子方差分析:可使用单因子方差分析。分析的变量是RPM,分组变量是Cylinders(汽缸个数)。
零假设:不同缸数的平均RPM值无差异。
对立假设:至少一种缸数的平均RPM有差异。
代码如下:


10980cfcb4a860f97404cc3fdc0178703edc14cb

由上面的方差分析可知,p值小于0.05,因此否定零假设。这意味着至少有一种缸数的平均RPM存在显著差异。为了识别哪一种缸数是不同的,可在方差分析模型的结果上执行事后检验:


5f675482828f06d96f0c928e1ac5b70a8d370fee


1482c5d2d8eed8daea5fa0b15cccfc445d665673

只要调整后的p值小于0.05,RPM的平均差异将显著有别于其他分组。
双因子方差分析及其事后检验:这里研究的因子是origin(是否美国产)和airbags(安全气囊规格)。需要检验的假设是:这两个分类变量对RPM变量是否有影响?


d8b13985e0e7ad0a247677e868cfd11827a8a285
目录
打赏
0
0
0
0
1408
分享
相关文章
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言临床预测模型:分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验
R语言临床预测模型:分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验
|
11月前
R语言单位根、协整关系Granger因果检验、RESET分析汇率在岸和离岸数据时间序列
R语言单位根、协整关系Granger因果检验、RESET分析汇率在岸和离岸数据时间序列
|
11月前
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
R语言汇率、股价指数与GARCH模型分析:格兰杰因果检验、脉冲响应与预测可视化
R语言汇率、股价指数与GARCH模型分析:格兰杰因果检验、脉冲响应与预测可视化
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言平稳性ADF检验、ARCH-LM效应检验分析收盘价收益率数据可视化
R语言平稳性ADF检验、ARCH-LM效应检验分析收盘价收益率数据可视化
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等