跟我一起数据挖掘(5)——数据类型

简介:

1、数据对象

相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。

属性:

属性可以标称的、二元的、序列的或数值的。

标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。

二元属性:就是我们常说的bool属性。一种情况是两种属性不带权重,对结果无影响,比如男、女。另外一种是有偏重,比如是否得病,一种表示得病,一种表示未得病。

序列属性:对于记录不能客观度量的主观质量评估,序列属性是有用的。比如用户满意度可以分为0 不满意 1 满意 2 非常满意。

二元和序列属性都是定性的,它们只描述对象的特征,而不给出实际的大小和度量。

数值属性:

与上面不同的是,数值属性是定量的。

1)区间标度

例如温度可以有零上多少度,零下多少度,也可以表示某天的温度高低的最大值和最小值。区间标度属性的中位数、众数和均值都是有意义的。

2)比率标度

比如说一个值是另一个值的倍数,或比率,例如某部作品的字数、章节数等。所以求这些值之间的均值、中位数和众数都是有意义的。

离散属性和连续属性:

在机器学习领域通常分为这两种属性值。例如图书的章节号就是一个离散属性。

2、数据的基本统计描述

对于特定的属性,我们首先关心的是属性的值大部分落在何处。

比如网站的访问页面,某行业的薪水构成等。

最常用的办法就是求平均值,相当于SQL中的AVG。

有的时候需要在每个值上边加上对应的权重,所以需要加权算术平均值,公式为:

如果想去掉某些值对整体均值的影响,则可以用截尾均值,比如某些高管的薪水比普通员工高很多,则会拉高整体均值的水平。截尾均值可以去掉明显离群的偏高或者偏低的值,然后得到更为准确的均值信息。

而中位数,一般就是指一组数中的中间的数,一般表示数据的倾斜趋势。

众数是另一种中心趋势度量,它可以标识出一组数中出现最多的数。

极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。。移动极差(Moving Range)是其中的一种。

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

四分位数的极差相当于Q3-Q1。

五数概括:

运用五数概括法的最简单的方式是首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。

五数概括法即用下面的五个数来概括数据:
最小值;
第1四分位数(Q1);
中位数(Q2);
第3四分位数(Q3);
最大值。

有关五数分布的快速计算可以使用R语言的fivenum()函数。

标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

目录
相关文章
|
10月前
|
运维 算法 数据挖掘
数据挖掘任务类型
数据挖掘任务类型
105 0
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
129 0
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
|
存储 机器学习/深度学习 SQL
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
156 0
|
机器学习/深度学习 人工智能 运维
【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
662 0
|
数据挖掘
《数据挖掘:实用案例分析》——第1章 初识数据挖掘 1.1 什么是数据挖掘
本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第1章,第1.1节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1647 0
|
数据采集 数据挖掘 测试技术