备案控制台

开发者社区

开发者社区大数据文章正文

《统计会犯错——如何避免数据分析中的统计陷阱》导读

2017-05-02 1652

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

前言

统计会犯错——如何避免数据分析中的统计陷阱

在那本非常著名的统计读物《统计数字会撒谎》（How to lie with statistics）的最后一章中，作者哈弗（Darrell Huff）告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的，虽然不是毫无条件地相信，但是肯定比“媒体”或者“政府”公布的事实可靠的多。哈弗的整本书中充满了媒体和政府利用误导性的统计信息弄虚作假的例子，但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解，而非对付政治对手的子弹。

统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志，你就会被统计术语淹没：t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具，科学家们毫不怀疑欣然地接受了这些工具。

目录

第1章　统计显著性简介

**1.1 p值的力量
 1.2 构建置信区间**

第2章　统计功效与低功效统计

**2.1 功效曲线
 2.2 低功效困境
 2.3 置信区间的优势
 2.4 膨胀的真理**

文章标签：

数据挖掘

关键词：

数据分析统计

统计犯错如何避免数据分析

异步社区

目录

相关文章

时雨h

|

6月前

|

机器学习/深度学习数据采集数据可视化

R语言一种功能强大的数据分析、统计建模可视化免费、开源且跨平台的编程语言

R语言一种功能强大的数据分析、统计建模可视化免费、开源且跨平台的编程语言

时雨h

130 1 1

桃李春风一杯酒

|

11天前

|

机器学习/深度学习数据可视化数据挖掘

用Python进行健康数据分析：挖掘医疗统计中的信息

【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色，具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化，例如使用RandomForestClassifier进行疾病预测，Logit模型分析药物效果，以及linprog优化医疗资源配置。

桃李春风一杯酒

21 1 1

鲜于言悠

|

1月前

|

存储数据采集数据挖掘

python数据分析——数据分类汇总与统计

数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳，然后对这些数据进行统计分析，以便于更好地了解数据的特点和规律。

鲜于言悠

57 1 1

鲜于言悠

|

1月前

|

机器学习/深度学习算法数据挖掘

python数据分析——数据分析的统计推断

数据分析的统计推断是科学研究中的重要环节，它通过对样本数据的分析，对总体参数进行估计，并对假设进行检验。这一过程旨在从数据中提取有意义的信息，为决策提供科学依据。在统计推断中，我们通常会遇到两类问题：参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测，而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理，保证了估计的准确性和可靠性。

鲜于言悠

45 0 0

wljslmz

|

4月前

|

算法数据挖掘 API

贝叶斯统计在Python数据分析中的高级技术点：贝叶斯推断、概率编程和马尔科夫链蒙特卡洛

贝叶斯统计在Python数据分析中的高级技术点：贝叶斯推断、概率编程和马尔科夫链蒙特卡洛

wljslmz

47 1 1

贝叶斯统计在Python数据分析中的高级技术点：贝叶斯推断、概率编程和马尔科夫链蒙特卡洛

阿甘兄

|

5月前

|

Web App开发数据挖掘 iOS开发

84 网站点击流数据分析案例（统计分析-PV统计）

84 网站点击流数据分析案例（统计分析-PV统计）

阿甘兄

55 0 0

LeapMay

|

6月前

|

数据挖掘索引 Python

【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

LeapMay

53 0 0

xiejava

|

7月前

|

数据采集数据挖掘索引

pandas数据分析之数据运算(逻辑运算、算术运算、统计运算、自定义运算)

数据分析离不开数据运算，在介绍完pandas的数据加载、排序和排名、数据清洗之后，本文通过实例来介绍pandas的常用数据运算，包括逻辑运算、算术运算、统计运算及自定义运算。

xiejava

121 0 0

咸鱼学Python

|

8月前

|

数据挖掘数据处理

人人都会点数据分析 | 了解统计指标与异常值的简单处理

人人都会点数据分析 | 了解统计指标与异常值的简单处理

咸鱼学Python

66 0 0

生信补给站

|

10月前

|

数据挖掘

数据分析|R-描述性统计

数据分析|R-描述性统计

生信补给站

90 0 0

热门文章

最新文章

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】

上网行为监控管理：利用R编写的数据分析和可视化代码示例

Python 数据分析（PYDA）第三版（三）（1）

【python】Python航空公司客户价值数据分析（代码+论文）【独一无二】

【python】双十一美妆数据分析可视化 [聚类分析/线性回归/支持向量机]（代码+报告）【独一无二】

Python 数据分析（PYDA）第三版（六）(2)

Python 数据分析（PYDA）第三版（六）(1)

Python 数据分析（PYDA）第三版（七）（3）

问卷调查数据分析指南！掌握方法，精准把握用户需求！

大模型与数据分析：探索Text-to-SQL（下）

《区块链公链数据分析简易速速上手小册》第5章：高级数据分析技术（2024 最新版）（上）

《区块链公链数据分析简易速速上手小册》第4章：交易数据分析（2024 最新版）（上）

《区块链公链数据分析简易速速上手小册》第1章：区块链基础（2024 最新版）

python数据分析工具SciPy

Python中数据分析工具Matplotlib

Python数据分析工具Pandas

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析

SciPy在数据分析中的应用：从数据清洗到可视化

Seaborn在数据分析中的应用：案例分析与实践

NumPy在数据分析中的核心应用

相关课程

更多

实时数据分析：使用Flink实时发现最热Github项目

日志服务 SLS 可观测数据分析平台介绍

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

互联网下半场的角逐，玩转轻资产的大数据服务—图（关系网络）数据分析与阿里应用

如何使用大数据计算服务 MaxCompute进行数据分析

相关实验场景

更多

倚天大数据电商数据分析快速实践

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

基于工具的数据探查

PolarDB MySQL HTAP：实时数据分析加速

助力游戏运营数据分析

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）