《大数据分析原理与实践》——2.3　推断统计-阿里云开发者社区

《大数据分析原理与实践》——2.3　推断统计

2017-09-01 1500

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《大数据分析原理与实践》一书中的第2章，第2.3节，作者王宏志，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3　推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法，其目的是利用问题的基本假定及包含在观测数据中的信息，做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容：参数估计，即利用样本信息推断总体特征，例如某一群人的视力构成一个总体，通常认为视力是服从正态分布的，但不知道这个总体的均值，随机抽部分人，测得视力的值，用这些数据来估计这群人的平均视力；假设检验，即利用样本信息判断对总体的假设是否成立。例如，若感兴趣的问题是“平均视力是否超过4.8”，就需要通过样本检验此命题是否成立。

2.3.1　参数估计

实际问题中，所研究的总体分布类型往往是已知的，但是要依赖于一个或者几个未知的参数。这时，求总体分布的问题就归结成了求一个或者几个未知参数的问题，这就是所谓的参数估计。

例如，一款电灯的使用寿命X是一个随机变量，我们由实际的经验知道X服从正态分布N(μ，σ2)。要想了解这款电灯的实际性能，我们就需要估计出μ和σ2值。又如，一段时间内某个商场的客流量可以用泊松分布来刻画，那么若想知道一定的时间间隔内经过的人数为k的概率，就要估计参数λ的值。

因而，在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式，而只是想知道均值、方差等某些数字特征，对这些数字特征的估计问题，也是参数估计的一部分内容。

参数估计主要有点估计和区间估计两类，我们分别讨论。

1.点估计

（1）点估计的两种方法

点估计主要有矩估计和极大似然估计两种。

2.区间估计

区间估计是从点估计值和抽样标准误差（standard error）出发，按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平，这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间的误差范围。置信区间越大，置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。

区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上，是依据该样本统计量时分布规律样本分布的标准误差。也就是说，只有知道了样本统计量的分布规律和样本统计量分布的标准误差，才能计算总体参数可能落入的区间长度，才能对区间估计的概率进行解释，可见标准误差及样本分布对于总体参数的区间估计是十分重要的。

样本分布可提供概率解释，而标准误差的大小决定区间估计的长度，标准误差越小置信区间的长度越短，而估计成功的概率仍可保持较高水平。一般情况下，加大样本容量可使标准误差变小。

如上所述，区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时，总希望估计值的范围小一点，成功的概率大一些。但在样本容量一定的情况下，二者不可兼得。如果使估计正确的概率加大些，势必要将置信区间加长，若使正确估计的概率为1.00，即完全估计正确，则置信区间就会很长，也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0～100分一样。反之，如果要使估计的区间变小，那就势必会使正确估计的概率降低。

统计分析中一般规定：正确估计的概率即置信水平为0.95或0.99，那么显著性水平则为0.05或0.01，这是依据“0.05或0.01属于小概率事件，而小概率事件在一次抽样中是不可能出现的”原理规定的。

2.3.2　假设检验

2.3.3　假设检验的阿里云实现

接下来的几章我们将介绍多个分析模型，包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。

需要注意的是，下面几章仅在大数据分析的数学模型和基本方法层面加以讨论，并不涉及其在大数据上的具体实现算法，并给出基于阿里云平台对其进行分析的方法，具体实现算法将在后面的章节中详细讨论。

下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上，汇集了分布式机器学习算法、文本处理算法、图分析算法等，可高效地完成海量、亿级维度数据的复杂计算，并且提供了一套极易操作的可视化编辑页面，大大降低了大数据分析的建模门槛，提高了建模效率，最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。

需要说明的是，大数据分析模型内容非常丰富，其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域，很难在一本书中对其进行全面阐述，本书采取广度优先的方式进行介绍，尽可能多地覆盖分析模型，供读者参考。由于篇幅所限，对于模型的性质缺少深度的介绍，对于具体模型的深度讲解可以参考相应的教材和专著，例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《大数据分析原理与实践》——2.3　推断统计

2.3　推断统计

2.3.1　参数估计

1.点估计

2.区间估计

2.3.2　假设检验

2.3.3　假设检验的阿里云实现

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据分析原理与实践》——2.3 推断统计

2.3 推断统计

2.3.1 参数估计

1.点估计

2.区间估计

2.3.2 假设检验

2.3.3 假设检验的阿里云实现

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据分析原理与实践》——2.3　推断统计

2.3　推断统计

2.3.1　参数估计

2.3.2　假设检验

2.3.3　假设检验的阿里云实现