数据挖掘之数据准备—— 原始数据的描述

简介:

c58849470f8a8b8279e19dec5220e839f0b64e15

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。


首先介绍两种常见的基本类型:数值型 和 分类型


数值型值包括实型变量和整型变量如年龄,速度或长度。


数值型特征有两个重要的属性:其值有顺序关系和距离关系。


与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.

具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。


另一种基于变量值的变量分类方法是,根据它是连续型





目录
相关文章
|
4月前
|
数据采集 算法 数据挖掘
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
73 0
|
4月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
65 0
|
4月前
|
数据可视化 算法 JavaScript
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
80 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战(超详细 附源码)
【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战(超详细 附源码)
55 0
|
4月前
|
数据挖掘
【数据挖掘】一元线性回归在鸢尾花数据集中实战预测(超详细 附源码)
【数据挖掘】一元线性回归在鸢尾花数据集中实战预测(超详细 附源码)
74 0
|
4月前
|
数据采集 存储 自然语言处理
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
91 0
|
4月前
|
数据采集 安全 数据挖掘
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
74 0