利用 Scikit Learn的Python数据预处理实战指南

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

利用 Scikit Learn的Python数据预处理实战指南

小旋风柴进 2017-05-25 08:37:00 浏览3292
展开阅读全文

0?wx_fmt=png


简而言之,预处理是指在你将数据“喂给”算法之前进行的一系列转换操作。在Python中,scikit-learn库在sklearn.preprocessing下有预装的功能。有更多的选择来进行预处理,这将是我们要探索的。


读完本文,你将具备数据预处理的基本技能并对其有更深入的理解。为了方便起见,我附上了进一步学习机器学习算法的一些资源,并且为更好地掌握这些概念,设计了几个小练习。


可用数据集

本文中,我使用了部分的贷款预测数据,缺失观测值的数据已被移除(需要数据的读者朋友,请在评论区留下电邮地址,我们会把数据发给你——译者注)。


备注:贷款预测问题中,测试集数据是训练集的子集。


现在,让我们从导入重要的包和数据集开始。


导入pandas

>> import pandas as pd

导入训练用的数据集

>> X_tr
















































































网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属团队号: 大数据文摘