大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据

弘锐66 2017-06-28 15:01:20 浏览6347
展开阅读全文

在如今互联网环境下,网络上的各种业务数据,如新闻,社交网站,交易,政府公开数据,气象数据等各种各样的数据越来越多被应用到企业的数据运营中, 以打通外部数据与内部数据的通道,使得两者激情碰撞出热烈的火花。这些数据一般都数据量巨大,是最适合用MaxCompute来进行分析和加工的一类数据,尤其可以利用MaxCompute的机器学习能力来完成一些数据挖掘的业务场景,本文就介绍如何利用开源的Scrapy爬虫框架来爬取新闻网站的数据到MaxCompute中。
f8dcff02ba0a86acec2a9aaea48ab9cbdbbf22cc

一、 Scrapy简单介绍

Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便。
Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。整体架构如下图所示:
scrapy

绿线是

网友评论

登录后评论
0/500
评论
弘锐66
+ 关注