《R语言数据挖掘:实用项目解析》——第1章,第1.13节缺失值(NA)的处理

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第1章,第1.13节缺失值(NA)的处理,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.13 缺失值(NA)的处理
缺失值处理在标准数据挖掘场景中是一个重要的任务。在R语言中,缺失值显示为NA。NA既不是字符串也不是数值型变量,它们被当作缺失值的标识。在将数据集导入R语言平台之后,必须检查所有变量,看是否存在缺失值——可使用is.na()函数。示例如下:


264ef08ac24d5ee486b7c968ec49cb9c54333b99

在上面的代码中,对象x是一个数值型向量,其中包含了一些NA值。is.na()可用于验证是否存在缺失值,如存在,则输出结果为TRUE。如果在存在NA值的情况下做计算,最终会出错或者无结果。我们可以通过修改NA值来替换数据集,或者可以在执行计算时移除那些NA值。如上面的代码所示,在计算对象x的平均值时通过na.rm=TRUE移除NA值。
可以使用na.omit()删除数据集中的缺失值。即使数据集只缺失了一个变量,它也会删除那一整行。缺失值的处理方法有很多种:
平均值替换:对于数据向量中的缺失值,可以用该向量的平均值或中位数替代(不包括NA值)。
局部平均法:取缺失值的局部平均值,通过3或5个周期移动取平均,即取3个周期的缺失数据的平均值作为先验值,根据后验值可确定缺失值应该是多少。
分隔保留:有时替换法无法完成,客户也许会有意将缺失值分隔保留下来,从而隔离地考虑缺失行为。
基于模型:有一些基于模型的缺失值替换法,例如基于回归模型预测缺失值的方法。
聚类法:可使用和回归预测相类似的方法来替换缺失值,可以采用K均值聚类法替换数据集中的缺失值。

目录
打赏
0
0
0
0
1408
分享
相关文章
R语言数据清洗:高效处理缺失值与重复数据的策略
【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中,我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值,以及删除重复数据,我们可以提高数据集的质量和可靠性,为后续的数据分析和建模工作打下坚实的基础。 需要注意的是,处理缺失值和重复数据时,我们应根据实际情况和数据特性选择合适的方法,并在处理过程中保持谨慎,以避免引入新的偏差或错误。
数据代码分享|R语言lasso回归、贝叶斯分析员工满意度调查数据、缺失值填充
数据代码分享|R语言lasso回归、贝叶斯分析员工满意度调查数据、缺失值填充
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证(上)
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证
【视频】为什么要处理缺失数据?如何用R语言进行缺失值填充?
【视频】为什么要处理缺失数据?如何用R语言进行缺失值填充?
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
11月前
R语言中缺失值的处理
R语言中缺失值的处理
96 0
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
11月前
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等