备案控制台

开发者社区

开发者社区 Python中文社区文章正文

数据挖掘实战（一）：Kaggle竞赛经典案例剖析

2018-03-14 7619

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Load Lib 在这边提一下为什么要加 import warnings warnings.filterwarnings('ignore') 主要就是为了美观，如果不加的话，warning一堆堆的，不甚整洁。

Load Lib

在这边提一下为什么要加

import warnings

warnings.filterwarnings('ignore')

主要就是为了美观，如果不加的话，warning一堆堆的，不甚整洁。

Load data

和正常的套路一样，Id的没有什么卵用但是每个数据集都喜欢加的东西，因此我们弄死它就好了。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

Data Statistics

Data Statistics是不能省略的部分，这部分能够首先让你对Data Science有个很基础的认知，也就是play with your data之前的know your data的部分。

在这里说一下，我在之前很简单粗暴的一上来就

dataset=df.iloc[:,1:]

把Id给删掉了，是不对的。正常的套路要先进行Data Statistics之后，才能进行对数据集的操作，否则误删了有价值的数据。。。就不大好了。。。

先看看数据集里有什么东西？

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

大家发现这个数据集很有趣的地方就是，他的数据类型全部都是int64的，这样Data cleaning的时候压力会小一点。

Data Cleaning

首先，我们来搞定一些没用的项目

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

We will dropped column ['Soil_Type7', 'Soil_Type15']

Nice,现在再来看一下：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

我们现在来看一下偏离量：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里要提一下，我之前如果没有执行删除'Soil_Type7', 'Soil_Type15'的内容的话，他们的偏离量为0，同样的，大家也可以通过这个方法来剃掉Soil_Type这个废柴。（本来就是用std剃掉的来着。。。）

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

为什么选Kaggle的数据集的原因又出现了，所有的Class都已经equal presence了，这就意味着不需要有一个re-balancing的过程了。

怎么说也是文化人，之前给大家的都不算什么有技术含量的，现在来个好玩的，也是Data Science的核心：Correlationship

首先要提一下，不是随便的啥啥啥数据都可以搞Correlationship的，至少要有continous才可以。

在Data Statistics的过程中，我们对数据有一个基本的认识了，因此，Wilderness_Area和Soil_Type我们不能用，谁教他是不是0就是1呢（一般我们叫它们binary）。

先做个准备

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

来正戏了，Pandas为什么那么多人用的原因之一就是，它将很多的东西都给工具化了，如果要手码的话。。。简直不寒而栗。。。

但是Pandas只要一句：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

看着很烦对不对？是的，很多没有什么必要的信息也一股脑子的弄了出来。

所以我们设置一个threshold，threshold可以理解为阈值，低于threshold就屏蔽掉好了。一般0.5以上才能说有相关性，0.8以上高度相关。有兴趣的同学可以看下Reference的Wikipedia中Correlation的解释。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这样，我们得到七个比较有关联的数据。但是还是有人觉得，还是不大像人话。还有人说我没图你说个啥？这里我导入一下seaborn，无他，只是因为我觉得Matplotlib的默认视图做这个。。。是真的很难看啊。。。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

在这里，我们移除了Soil_Type7和Soil_Type15，因为这两项的全是没变。

这里提一下，通过调试

dataset.std()

可以很简单直接的把值压根就没变化的废物给找出来，这个方法很常用。

由于Kaggle的数据集内容本身没有什么需要清理的需求，所以Data Cleaning做到这一步就差不多了。

在这里提一下，通过list将操作保存起来这个习惯很重要——要不然说翻车就翻车了，然后死活都找不到之前做了什么。。。

严谨的数据科学家是不会放过它滴。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

原文发布时间为：2017-02-21本文作者：那只猫本文来自云栖社区合作伙伴“ Python中文社区”，了解相关信息可以关注“ Python中文社区”微信公众号

文章标签：

Python

数据挖掘

关键词：

数据挖掘案例

数据挖掘实战

数据挖掘经典案例

数据挖掘竞赛

青衫无名

目录

相关文章

热烈的马

|

4月前

|

机器学习/深度学习数据挖掘 Python

【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战（超详细附源码）

【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战（超详细附源码）

热烈的马

53 0 0

热烈的马

|

4月前

|

算法数据挖掘

【数据挖掘】岭回归Ridge讲解及实战应用（超详细附源码）

【数据挖掘】岭回归Ridge讲解及实战应用（超详细附源码）

热烈的马

41 0 0

热烈的马

|

4月前

|

数据可视化数据挖掘

【数据挖掘】多项式回归原理介绍及实战应用（超详细附源码）

【数据挖掘】多项式回归原理介绍及实战应用（超详细附源码）

热烈的马

67 1 1

热烈的马

|

4月前

|

算法数据挖掘 Python

【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用（图文解释超详细）

【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用（图文解释超详细）

热烈的马

132 0 0

热烈的马

|

4月前

|

机器学习/深度学习算法前端开发

【数据挖掘】袋装、AdaBoost、随机森林算法的讲解及分类实战（超详细附源码）

【数据挖掘】袋装、AdaBoost、随机森林算法的讲解及分类实战（超详细附源码）

热烈的马

39 0 0

热烈的马

|

4月前

|

机器学习/深度学习算法数据挖掘

【数据挖掘】SVM原理详解及对iris数据集分类实战（超详细附源码）

【数据挖掘】SVM原理详解及对iris数据集分类实战（超详细附源码）

热烈的马

113 1 1

热烈的马

|

4月前

|

机器学习/深度学习算法数据挖掘

【数据挖掘】决策树归纳中ID3算法讲解及构建决策树实战（图文解释超详细）

【数据挖掘】决策树归纳中ID3算法讲解及构建决策树实战（图文解释超详细）

热烈的马

208 0 0

热烈的马

|

4月前

|

算法数据可视化数据挖掘

【数据挖掘】密度聚类DBSCAN讲解及实战应用（图文解释附源码）

【数据挖掘】密度聚类DBSCAN讲解及实战应用（图文解释附源码）

热烈的马

169 1 1

热烈的马

|

4月前

|

数据挖掘

【数据挖掘】Lasso回归原理讲解及实战应用（超详细附源码）

【数据挖掘】Lasso回归原理讲解及实战应用（超详细附源码）

热烈的马

218 0 0

爱学习的千影

|

2月前

|

机器学习/深度学习数据挖掘定位技术

预测未来：Python 数据挖掘案例

数据挖掘是从大量数据中提取有用信息的过程。通过应用数据挖掘技术，我们可以发现数据中的模式、关系和趋势，从而做出预测和决策。在 Python 中，有许多强大的数据挖掘库和工具可供使用。本文将介绍一个使用 Python 进行数据挖掘以预测未来的案例。

爱学习的千影

59 0 0

Python中文社区

热门文章

最新文章

探索数据挖掘中的特征选择算法

API电商接口大数据分析与数据挖掘（商品详情店铺）

【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐

工具推荐 | 分析大数据最需要的Top 10数据挖掘工具

150+面试题，十大必读书，数据挖掘offer轻松搞定 | 面试宝典系列

数据挖掘实战：带你做客户价值分析(附代码)

R语言数据挖掘1.8.2　统计学与机器学习

聊聊数据挖掘竞赛中的套路与深度学习的局限

【数据挖掘实战】——电力窃漏电用户自动识别

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

API电商接口大数据分析与数据挖掘（商品详情店铺）

预测未来：Python 数据挖掘案例

数据挖掘实战：基于KMeans算法对超市客户进行聚类分群

【Python数据挖掘】优化电能能源策略：基于非侵入式负荷检测与分解的智能解决方案

Python数据挖掘项目实战——自动售货机销售数据分析

基于非侵入式负荷检测与分解的电力数据挖掘

通过案例理解数据挖掘

数据挖掘之旅：京东商品详情API与销售策略的优化

探索大数据时代的关键技术：数据挖掘、可视化和数据仓库

百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（下）

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

数据挖掘类比赛汇总

数据科学/天池竞赛进阶

李宏毅2021《机器学习》

【机器学习入门】台大李宏毅老师经典机器学习课程视频

相关电子书

更多

阿里云机器学习技术与应用

微博机器学习平台架构和实践

信息检索与机器学习的华尔兹

相关实验场景

更多

倚天大数据电商数据分析快速实践

基于阿里云DeepGPU实例，用AI画唯美国风少女

一键创建和部署高分电影推荐语音技能

零基础入门Serverless：基于函数计算快速搭建基于人工智能的目标检测系统

推荐系统入门之使用ALS算法实现打分预测

自然语言入门：NLP数据读取与数据分析

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）