备案控制台

开发者社区

开发者社区大数据文章正文

数据挖掘工具分析北京房价（一）数据爬取采集

2016-11-02 843

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

一. 前言

房价永远是最让人头疼且激动的话题，尤其是在帝都，多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例，把目前我开发的这套软件进行一次完整的演练。从数据采集，到清洗，分析，和最终可视化和报告的呈现，实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息，再者可以更好地了解这套软件的使用流程。关于本工具的介绍，可参考数据挖掘平台介绍（综述）——平台简介。

自然的，文章分为四部分，本节是第一部分：数据爬取和采集。

二. 准备工作

俗话说巧妇难为无米之炊，没数据，分析就没有了意义。为了找到合适的数据，我翻到了链家的官网。http://beijing.homelink.com.cn/ 这里的数据虽然远远算不上准确吧，毕竟挂在网上的东西和真实数据肯定会有差距，但可读性很好，数据也比较全。我们就看看怎么去爬取这些数据吧！

链家官网：

总共的房源数是72964套在售，主要关心的数据是面积，价格，位置，特点，地理坐标，看房用户等（反映热度）。我们就看看能不能把这些数据抓到手！

本次介绍的网页采集器有如下特点:

不需要写正则表达式或者编写代码
只需要将感兴趣的数据选中，并为其起名字（默认的名字亦可）
设置批量执行的方法即可执行批量采集
适合爬取列表型页面
简单方便，效率较高
能够爬取动态网页和需要登录的网页（这种操作稍微复杂一些）

首先把“网页采集器”模块拖放到算法处理器中：

下图是网页采集器的设置菜单：

首先填写URL路径，为二手房的数据路径，一般默认编码为UTF-8，程序中做了对编码格式的识别功能。点击访问网页：

即可在主窗口中，分别以原始HTML方式和浏览器方式浏览该网页：

我一般会选用HTML 源代码的方式查看数据。

将感兴趣的数据，从HTML中拷贝到“筛选字段”对话框中，系统会自动查找对应的路径

给属性起个名字，比如“介绍” ，点击添加字段，即可完成一个属性的添加。

同样的，可以把超链接也做同样的处理，添加字段。

在选择数据时，尽可能选择比较有代表性的数据，同时，要把数据分布在列表的不同项中。

你可以随时查看和修改添加的属性，在高级选项中，点击属性列表：，即可查看当前添加的所有属性，并进行增删改查。

在选择了五个感兴趣的数据之后，可点击“开始爬取”。此时程序会尝试在本网页上进行一次抓取，我们可通过这样的尝试判断程序执行的准确性：

获取了12项，同时点击查看：

类似的，我们可以将其他包括楼层数，朝向等，都通过类似的方法进行添加。如果确实一些数据程序无法自动发现，可通过手写XPATH进行解决。

3. 批量任务

添加了多达10个属性，并进行网页爬取测试后，我们认为程序设置没有问题了，那就可以进行批量网页爬取了。

具体的方法，可以设置批量任务属性。从网页上看到，总共有6073页：

同时，不同的页面区别仅在URL的最后：

http://beijing.homelink.com.cn/ershoufang/pg2/

http://beijing.homelink.com.cn/ershoufang/pg6074/

所以批量参数可以写成：

http://beijing.homelink.com.cn/ershoufang/{0}/ ，可以把需要替换的数字改为大括号括起来的形式。

加上10ms的延时。

将当前的爬虫保存为一个任务，同时起名字为“链家爬虫”

接下来，即可在菜单栏中，运行->任务->启动批量任务

选择要执行的任务为“链家爬虫”：

设置要遍历的模块为网页采集器：

选取遍历的参数：

设置参数列表：

可以在左侧填写间隔，最大值和最小值生成参数，同时也可以在右侧，以每行一个参数填写要遍历的参数。我们生成的参数为1-6074

点击完成，即可执行批量任务：

大概在两小时后，即可爬取所有的数据~~~哈哈哈

查看一下战果：

我们将数据导出成文件，方便下次进行分析。（也可以保存到数据库）

选择文件格式，填写文件名：

选择要导出的字段，和是否要修改字段的名称：

点击确定，即可将数据导出完毕。

任务完成！

三. 总结

这次战果斐然，在两小时内采集了七万条数据，而整个配置的时间仅仅不到两分钟。但是必须发现，有很多数据是有问题的，比如面积和一些属性为空，会对后期做数据分析造成影响。因此下一节我们介绍数据清洗工作，敬请期待。

作者：热情的沙漠
出处：http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

本文转自FerventDesert博客园博客，原文链接：http://www.cnblogs.com/buptzym/p/3946357.html，如需转载请自行联系原作者

文章标签：

Web App开发

数据挖掘

数据采集

关键词：

数据挖掘数据

数据挖掘分析

数据挖掘工具数据

数据挖掘工具

数据挖掘爬取

长征6号

目录

相关文章

技术交流13627902019

|

1月前

|

数据采集运维数据挖掘

API电商接口大数据分析与数据挖掘（商品详情店铺）

API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中，各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。

技术交流13627902019

381 5 6

热烈的马

|

4月前

|

数据采集算法数据挖掘

【数据挖掘】数据变换与离散化讲解与实战（超详细附源码）

【数据挖掘】数据变换与离散化讲解与实战（超详细附源码）

热烈的马

62 0 0

热烈的马

|

4月前

|

数据可视化数据挖掘大数据

【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战（超详细附源码）

【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战（超详细附源码）

热烈的马

63 0 0

热烈的马

|

4月前

|

机器学习/深度学习算法数据挖掘

【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战（超详细附源码）

【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战（超详细附源码）

热烈的马

54 0 0

热烈的马

|

4月前

|

数据挖掘

【数据挖掘】多元线性回归对波士顿房价分析实战（超详细附源码）

【数据挖掘】多元线性回归对波士顿房价分析实战（超详细附源码）

热烈的马

162 0 0

热烈的马

|

4月前

|

数据挖掘

【数据挖掘】一元线性回归在鸢尾花数据集中实战预测（超详细附源码）

【数据挖掘】一元线性回归在鸢尾花数据集中实战预测（超详细附源码）

热烈的马

64 0 0

热烈的马

|

4月前

|

数据挖掘

【数据挖掘】一元线性回归预测房屋面积与房价间关系实战（附源码超详细）

【数据挖掘】一元线性回归预测房屋面积与房价间关系实战（附源码超详细）

热烈的马

36 0 0

热烈的马

|

4月前

|

机器学习/深度学习数据挖掘 BI

【数据挖掘】回归分析定义、概念、分类、过程讲解（图文解释超详细）

【数据挖掘】回归分析定义、概念、分类、过程讲解（图文解释超详细）

热烈的马

63 0 0

热烈的马

|

4月前

|

数据采集存储自然语言处理

【数据挖掘】数据清洗、数据集成、数据标准化的详解（超详细附源码）

【数据挖掘】数据清洗、数据集成、数据标准化的详解（超详细附源码）

热烈的马

89 0 0

华章计算机

|

数据可视化大数据数据挖掘

《R语言数据挖掘：实用项目解析》——导读

华章计算机

1258 0 0

热门文章

最新文章

探索数据挖掘中的特征选择算法

API电商接口大数据分析与数据挖掘（商品详情店铺）

【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐

工具推荐 | 分析大数据最需要的Top 10数据挖掘工具

150+面试题，十大必读书，数据挖掘offer轻松搞定 | 面试宝典系列

数据挖掘实战：带你做客户价值分析(附代码)

R语言数据挖掘1.8.2　统计学与机器学习

聊聊数据挖掘竞赛中的套路与深度学习的局限

SAS推出“结果即服务” 降低企业数据挖掘门槛

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

预测未来：Python 数据挖掘案例

数据挖掘实战：基于KMeans算法对超市客户进行聚类分群

【Python数据挖掘】优化电能能源策略：基于非侵入式负荷检测与分解的智能解决方案

Python数据挖掘项目实战——自动售货机销售数据分析

基于非侵入式负荷检测与分解的电力数据挖掘

通过案例理解数据挖掘

数据挖掘之旅：京东商品详情API与销售策略的优化

探索大数据时代的关键技术：数据挖掘、可视化和数据仓库

百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历

【Python百宝箱】数据科学的黄金三角：数据挖掘和聚类

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（下）

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

数据挖掘类比赛汇总

深入理解数据分析

相关电子书

更多

BigGraph：大规模在线图分析平台

机器能预报多久后的天气——机器学习和可预报性

《实时数据分析演示)》

相关实验场景

更多

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

Github实时数据分析与可视化

基于Kibana Lens进行数据可视化，灵活分析航班信息

通过可观测可视化Grafana版进行数据可视化展示与分析

使用内置公开数据集快速体验MaxCompute

基于工具的数据探查

下一篇

阿里云oss简介和使用流程