统计学上的试验概述

简介: 在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。 基本概念 ------- 去分析一个问题,我们总需要由一些基本概念开始。 我们总是一个变

在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。

基本概念

去分析一个问题,我们总需要由一些基本概念开始。

我们总是一个变量“variable”去定量地描述一个物体。譬如下面的表格由两个变量描述一个人,Height高度和Sex性别。

Height Sex
170.3 cm M
160.0 cm F
168.0 cm M

统计上,可以把一个变量variable分为qualitative variable和quantitative variable。Qualitative variable是指分类的变量,譬如上面的Sex/性别属于qualitative variable. Quantitative variable是数值型的描述,上面的Height属于quantitative variable。

常用的统计试验 tests

由于每个试验(tests)的值的scale都不一样,最后,统计学家把所有试验的输出值都归一化为p value。

t-test用于对比小群体,这两个群体由quantitative variable组成。t-test一般用于小于30个样本的群体。t-test不需要知道群体的variance。t-test是基于mean,用于对比两个分布是否显著不一样。(当p value低于0.05的时候,两个群体显著不一样)。

z-test用于对打大群体,这两个群体由quantitative variable组成。z-test一般用于大于30个样本的群体。z-test需要知道群体的variance和mean。用于对比两个分布是否显著不一样。当p value低于0.05的时候,两个群体显著不一样。

f-test指基于variance的对比, 这两个群体由quantitative variable组成。当p value低于0.05的时候,两个群体显著不一样。

Pearson's chi-squared test是基于category变量的试验,意思说每个事件的变量输出的独立的,下面的wikipedia的例子计算“男女两个群体和左右手习惯是否两个独立事件”,结论是我们不能否定“男女”和“惯用左右手”没有关系。

https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

总计
43 44 87
9 4 13
总计 52 48 100

这个方法广泛用于AB测试中,对比不同的方法,效果(譬如点击率)是否有明显的增加。

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 人工智能
机器学习基础知识——基本原理、常用算法与评估指标
机器学习基础知识——基本原理、常用算法与评估指标
133 0
|
7月前
|
存储 供应链 算法
《数学模型(第五版)》学习笔记(2)第3章 简单的优化模型 第4章 数学规划模型
《数学模型(第五版)》学习笔记(2)第3章 简单的优化模型 第4章 数学规划模型
72 1
|
24天前
|
机器学习/深度学习 自然语言处理 算法
|
7天前
|
数据可视化 vr&ar
R语言统计学DOE实验设计:用平衡不完全区组设计(BIBD)分析纸飞机飞行时间实验数据
R语言统计学DOE实验设计:用平衡不完全区组设计(BIBD)分析纸飞机飞行时间实验数据
13 1
|
19天前
R语言多臂试验 - 我们应该考虑多重性吗?
R语言多臂试验 - 我们应该考虑多重性吗?
14 1
|
2月前
|
机器学习/深度学习 自然语言处理 决策智能
8分SCI | 揭示随机森林的解释奥秘:探讨LIME技术如何提高模型的可解释性与可信度!
8分SCI | 揭示随机森林的解释奥秘:探讨LIME技术如何提高模型的可解释性与可信度!
64 1
|
11月前
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
143 0
|
12月前
|
机器学习/深度学习 算法
【机器学习算法】2、逻辑回归——从来源说起(二)
【机器学习算法】2、逻辑回归——从来源说起(二)
46 0
|
12月前
|
机器学习/深度学习 算法
【机器学习算法】2、逻辑回归——从来源说起(一)
【机器学习算法】2、逻辑回归——从来源说起(一)
50 0
|
机器学习/深度学习
机器学习数学基础十一:方差分析
分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异
184 0
机器学习数学基础十一:方差分析