数据科学异常值检测原理—经验法则

简介: 说明数据清洗时常用的检测异常值方法之一,经验法则的原理

前提:

数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。(还有对数正态分布是指各种因素对结果的影响不是相加,而是相乘)

经验法则原理:

标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

image.png

计算步骤:

μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。
标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。

image.png

数据科学异常值检测原理—经验法则

判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI问题之推断报错如何解决
人工智能平台PAI是指阿里云提供的机器学习平台服务,支持建模、训练和部署机器学习模型;本合集将介绍机器学习PAI的功能和操作流程,以及在使用过程中遇到的问题和解决方案。
39 0
|
4月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
147 0
|
8天前
|
算法
R语言Outliers异常值检测方法比较
R语言Outliers异常值检测方法比较
15 2
|
9天前
|
算法
R语言异常值检测方法比较
R语言异常值检测方法比较
11 0
|
8天前
|
前端开发
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
33 0
|
10月前
|
数据挖掘
数据分析|R-异常值处理
数据分析|R-异常值处理
|
机器学习/深度学习 算法 Python
机器学习常见异常和解决办法汇总
scikit-learn是一个Python机器学习库,提供了很多基础的模型和算法。
|
机器学习/深度学习 运维 算法
【Python数据分析基础】: 异常值检测和处理
【Python数据分析基础】: 异常值检测和处理
【Python数据分析基础】: 异常值检测和处理
|
机器学习/深度学习 人工智能 算法
构建机器学习模型时要避免的6个错误
近年来,机器学习在学术研究领域和实际应用领域得到越来越多的关注。但构建机器学习模型不是一件简单的事情,在构建机器学习模型时,我们应该避免以下6个错误。
375 0
构建机器学习模型时要避免的6个错误
|
算法 大数据
数据科学异常值检测原理—经验法则
说明数据清洗时常用的检测异常值方法之一,经验法则的原理
602 0
数据科学异常值检测原理—经验法则