《数据科学:R语言实现》——3.7 舍弃数据

简介:

本节书摘来自华章计算机《数据科学:R语言实现》一书中的第3章,第3.7节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.7 舍弃数据

在之前的教程中,我们介绍了如何修改和过滤数据集。这些步骤基本上涵盖了数据预处理和数据准备的主要过程。但是,我们还想找出数据集中的坏数据。那些坏数据或者不想要的数据应该丢弃,避免生成误导的结果。这里,我们会介绍一些移除无用数据的实用方法。

准备工作

按照3.3节“转换数据类型”教程,把导入数据的每个属性转换成合适的数据类型。同时按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。

实现步骤

执行下列步骤,舍弃当前数据集的一个属性。

1.首先,你可以在过滤条件中排除last_name,舍弃该列:
image

2.或者,你可以给舍弃的属性分配NULL值:
image

3.要舍弃行,你可以通过反向索引,指定希望舍弃的行:
image

运行原理

舍弃行数据的想法与数据过滤很类似,你只需要在过滤阶段给出要舍弃行的反向索引,然后可以使用过滤后的数据替换原来的数据。由于last_name列是第5个索引,你可以在方括号中的逗号右边给定-5来移除这个属性。除了重新赋予非空值,你也可以给要舍弃的属性指定NULL值。要移除行,你可以在方括号的逗号左边放置反向索引,然后用过滤的数据子集替换原来的数据集。

更多技能

除了使用数据过滤或给具体属性指定NULL值,你也可以使用函数within移除不需要的属性。所需的操作只是在函数rm中放置不需要的属性名称:
image

相关文章
|
4天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
4天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
4天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
4天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
4天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
4天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
4天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
4天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
4天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4天前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战

热门文章

最新文章