分布式scrapy_redis源码总结,及其架构

  1. 云栖社区>
  2. python技术进阶>
  3. 博客>
  4. 正文

分布式scrapy_redis源码总结,及其架构

python之战 2019-03-19 23:06:35 浏览666
展开阅读全文

分布式scrapy的组件源码介绍完了,大致总结一下,相关组件目录如下:

RedisSpider的调度队列实现过程及其源码

scrapy中scrapy_redis分布式内置pipeline源码及其工作原理

scrapy分布式调度源码及其实现过程

scrapy分布式Spider源码分析及实现过程

scrapy分布式去重组件源码及其实现过程

scrapy_redis中序列化源码及其在程序设计中的应用

scrapy_redis分布式组件Connection源码解读及工作原理


其架构如图:

2019-03-19-23_06_13.png

在对比scrapy架构:

2019-03-19-23_06_13.png


在架构上scrapy_redis比scrapy多了一个中介Redis,正是通过Redis实现的去重和数据储存,同时scrapy_redis实现了四个组件的重写,Scheduler(调度)、Duplication Filt

网友评论

登录后评论
0/500
评论
python之战
+ 关注
所属云栖号: python技术进阶