《Python数据分析与挖掘实战》一3.1 数据质量分析

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Python数据分析与挖掘实战》一3.1 数据质量分析

华章计算机 2017-05-02 16:28:00 浏览2484
展开阅读全文

本节书摘来自华章出版社《Python数据分析与挖掘实战》一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.1 数据质量分析

数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容。
缺失值。
异常值。
不一致的值。
重复数据及含有特殊符号(如#、¥、*)的数据。
本小节将主要对数据中的缺失值、异常值和一致性进行分析。

3.1.1 缺失值分析

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属团队号: 华章计算机