一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

  1. 云栖社区>
  2. python技术进阶>
  3. 博客>
  4. 正文

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

python进阶者 2019-02-11 17:41:04 浏览907
展开阅读全文

今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。

1、Scrapy爬虫框架

Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。

Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。

v2-7e66bd880de33c383cec2b28536a052c_hd.jScrapy爬虫框架

2、由上图可知Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎),Scheduler(调度器),Downloader(下载器),Spiders(蜘蛛),Item Pipeline(项目管道)。爬取过程是Scrapy引擎发送请求,之后调度器把初始URL交给下载器,然后下载器向服务器发送服务请求,得到响应后将下载的

网友评论

登录后评论
0/500
评论
python进阶者
+ 关注
所属云栖号: python技术进阶