《R语言数据挖掘：实用项目解析》——第2章，第2.8节假设检验-阿里云开发者社区

《R语言数据挖掘：实用项目解析》——第2章，第2.8节假设检验

2017-05-02 1385

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介：

本节书摘来自华章出版社《R语言数据挖掘：实用项目解析》一书中的第2章，第2.8节假设检验，作者［印度］普拉迪帕塔·米什拉（Pradeepta Mishra），更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.8　假设检验
零假设意味着什么都没有发生、平均值是恒定的，等等。对立假设则意味着有什么发生了，且平均值与总体有所不同。进行假设检验的步骤如下：
1）提出零假设：提出关于总体的假设。例如，平均市内行车英里数为40。
2）提出对立假设：如果证明零假设是错的，那么其他情况的概率有多大？例如，如果市内行车英里数不是40，那是大于40，还是小于40？如果不等于40，则这是一个非定向对立假设。
3）计算样本检验统计：检验统计可以是t-检验、f-检验、z-检验等。根据数据适用性和先前提出的假设选择恰当的检验统计。
4）确定置信区间：有90%、95%和99%三个置信区间，根据相关的特定业务问题的准确率而定。置信区间的水平由研究人员或分析师来确定。
5）确定显著性水平：如果置信区间是95%，则显著性水平将为5%。由此可见显著性水平的确定将有益于计算检验的p值。
6）结论：如果选择的p值小于显著水平值，则有理由否定零假设；否则，我们将认可零假设。

2.8.1　总体均值检验
根据前面的检验假设步骤，以Cars93为例来检验总体平均值。
已知方差情况下的单尾均值检验
假设某研究人员声明样本采集的所有汽车平均行车里程数超过35。在有93辆汽车的样本中，观察到所有汽车平均行车里程数为29。你应该认可，还是否定该研究人员的声明？
接下来的代码将解释你应该怎样对此下结论：

9fc41ccc1df2489e71620019ef8a3290b6278021

c098acdd79a7a23b3eed51f9f123ebbe0ecf8d5c

下面介绍在已知方差情况下对样本数据的总体均值进行单尾和双尾比例检验分析。
单尾和双尾比例检验
利用数据集Cars93，假设40%的美国产汽车的RPM（最大马力时的每分钟转速）超过5000。从样本数据得知，57辆汽车中有17辆的RPM超过5000。从上文你可得到什么解释？

e81f5a0da3fcebbd9689d724de5fae76d242f698

b988f3e92d59885833e9a1485b1d60d7aac5e522

如果对立假设是非定向假设，那么这就是双尾比例检验的例子。之前的计算不会有改变，除了临界值的计算。详细代码如下：

bffe7923c53748b09556375cca08b1a1f4dd8f1d

对连续型数据的双样本成对检验：用于双样本成对检验的零假设是指假设一个过程对研究对象没有影响、试验对试验对象没有影响，等等。对立假设声明存在过程的显著统计影响、试验的有效性或在对象上的作用。
虽然在Cars93中没有这样的变量，我们仍然假设在不同汽车品牌的最小价格和最大价格之间有成对关系。
双样本t检验的零假设：平均价格无差异。
对立假设：平均价格有差异。

dd193622edfc33ddc4b6da92a8b4d73a59378f99

由于p值小于0.05，因此最大价格和最小价格之差在95%置信区间内有显著差异。
对连续型数据的双样本不成对检验：假设在Cars93数据集中高速路的里程数和市内里程数是有差别的。如果两者有显著差异，可以通过独立的样本t检验来比较各自的平均值。
零假设：高速路的MPG和市内的MPG没有差别。
对立假设：高速路的MPG和市内的MPG有差别。

e616d9b90d64d84c20914d622e330cca23cde4eb

由双样本t检验可知，当两个样本相互独立时，p值小于0.05，所以我们可以否定假设高速路和市内的平均里程数无差别的零假设，即高速路和市内的平均里程数有显著差异。这可用略微不同的方法展现出来，即零假设手动挡与自动挡汽车各自的市内平均行车里程数不同：

f4dfec303bdec7a783ea2b7d4dac1938794fbb17

从以上的检验可知，结论自动挡与手动挡汽车的市内平均行车里程数有显著差异，因为p值小于0.05。
在进行t检验之前，检查数据的正态性非常重要。一个变量的正态性可用Shapiro检验函数检测：

b70f494a01b721cf61de28c12a658fceb1f0cdb5

57f68a79d65e250ab6f0d6c3dda8682c9db96846

由市内每加仑行车里程数的正态分位图和直方图可知，里程数变量没有呈正态分布。因为该变量不是正态分布的，所以需要采取非参数方法比如Wilcoxon符号秩检验或Kolmogorov-Smirnov检验。

2.8.2　双样本方差检验
比较双样本的方差，采用F检验作为统计量：

b0ad096bc24c4391924305ec9a2afd2cc32e8e83

因为p值小于0.05，我们可以否定手动挡与自动挡汽车在高速路的里程数的方差无差异的零假设。这表明两个样本的方差有95%置信水平的统计显著差异。
这两组样本的方差还可以用Bartlett检验测出：

8eeae7ed3551f1248d62e9b0a1f6249f160b9568

由以上检验也可以得出这样的结论，即关于方差相同的零假设可在0.05的显著性水平拒绝，可证明这两组样本有显著差异。
单因子方差分析：可使用单因子方差分析。分析的变量是RPM，分组变量是Cylinders（汽缸个数）。
零假设：不同缸数的平均RPM值无差异。
对立假设：至少一种缸数的平均RPM有差异。
代码如下：

10980cfcb4a860f97404cc3fdc0178703edc14cb

由上面的方差分析可知，p值小于0.05，因此否定零假设。这意味着至少有一种缸数的平均RPM存在显著差异。为了识别哪一种缸数是不同的，可在方差分析模型的结果上执行事后检验：

5f675482828f06d96f0c928e1ac5b70a8d370fee

1482c5d2d8eed8daea5fa0b15cccfc445d665673

只要调整后的p值小于0.05，RPM的平均差异将显著有别于其他分组。
双因子方差分析及其事后检验：这里研究的因子是origin（是否美国产）和airbags（安全气囊规格）。需要检验的假设是：这两个分类变量对RPM变量是否有影响？

d8b13985e0e7ad0a247677e868cfd11827a8a285

《R语言数据挖掘：实用项目解析》——第2章，第2.8节假设检验

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《R语言数据挖掘：实用项目解析》——第2章，第2.8节假设检验

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景