《R语言数据挖掘》----1.14 数据变换与离散化

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.14节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14 数据变换与离散化

根据前面的内容,我们可以知道总有一些数据格式最适合特定的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。

1.14.1 数据变换

数据变换程序将数据变换成可用于挖掘的恰当形式。它们如下所述:

平滑:使用分箱、回归和聚类去除数据中的噪声。

属性构造:根据给定的属性集,构造和添加新的属性。

聚合:在汇总或者聚合中,对数据执行操作。

标准化:这里,对属性数据进行缩放以便落入一个较小的范围。

离散化:数值属性的原始值被区间标签或者概念标签所取代。

对名义数据进行概念分层:这里,属性可以被推广到更高层次的概念中。

1.14.2 标准化数据的变换方法

为了避免依赖数据属性的测量单位的选择,数据需要标准化。这意味着将数据变换或者映射到一个较小的或者共同的范围内。在这个过程后,所有的属性获得相同的权重。有许多标准化的方法,我们看看其中的一些办法。

最小-最大标准化:该方法保留了原始数据值之间的关系,对原始数据进行线性变换。当一个属性的实际最大值和最小值可用时,该属性将被标准化。

z分数标准化:这里,属性值的标准化是基于属性的均值和标准差。当对一个属性进行标准化时,如果其实际最大值和最小值是未知的,则该方法仍然是有效的。

十进制标准化:该方法通过移动属性值的小数点将其标准化。

1.14.3 数据离散化

数据离散化通过值映射将数值数据变换成区间标签或者概念标签。离散化技术包括:

通过分箱将数据离散化:这是一个根据指定数目的、分段的、自上而下的无监督分割技术。

根据直方图分析将数据离散化:在该技术中,直方图将属性值分割在不相交的范围内,称为桶或者箱,同样为无监督的方法。

通过聚类分析将数据离散化:在该技术中,应用聚类算法离散化数值属性,它通过将该属性的值分割到不同的类或者组中。

通过决策树分析将数据离散化:这里,决策树采用自上而下的分割方法,它是一个有监督的方法。为了离散化数值属性,该方法选择具有最小熵的属性值作为分割点,并递归地划分所得的区间以实现分层离散化。

通过相关分析将数据离散化:该技术采用自下而上的方法,通过发现最佳近邻区间,然后递归地将它们合并成更大的区间,这是一个有监督的方法。

相关文章
|
21小时前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
21小时前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
21小时前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
21小时前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
22小时前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
22小时前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
22小时前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
22小时前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
23小时前
|
机器学习/深度学习 算法 数据库
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
|
23小时前
|
机器学习/深度学习 数据可视化 算法
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享

热门文章

最新文章