Scrapy-redis

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 由于Scrapy本身是不支持分布式的,故引入Scrapy-redis组件,Scrapy-redis替换掉Scrapy的调度器,从而把rquests放入redis队列,将Scrapy从单台机器扩展到多台机器,实现较大规模的爬虫集群。

由于Scrapy本身是不支持分布式的,故引入Scrapy-redis组件,Scrapy-redis替换掉Scrapy的调度器,从而把rquests放入redis队列,将Scrapy从单台机器扩展到多台机器,实现较大规模的爬虫集群。


img_ac2372dcb17634f27ba16bd268d8a0e0.png
Scrapy-redis.png

Scrapy-Redis

Scrapy的Redis组件.

文档: https://scrapy-redis.readthedocs.org.

特点

  • 分布式抓取
    你可以启动多个蜘蛛实例共享一个单一的redis队列。最适合广泛的多域抓取。
  • 分布式处理
    把项目被推到一个redis排队意味着你可以开始需要处理多进程共享的项目队列。
  • Scrapy即插即用的组件
    调度程序+复制过滤器,项目管道,基蜘蛛。

要求

  • Python2.7,3.4 or 3.5
  • Redis >= 2.8
  • Scrapy >=1.1
  • redis-py >= 2.10

用法

在你的项目使用以下设置
# 允许在redis中存储请求队列.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有的蜘蛛通过redis共享相同的重复过滤器.
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#警告:在Python 3 x中,序列化程序必须返回字符串键和支持。
#字节作为值。因为这个原因,JSON或msgpack模块不拖欠工作。
#在Python 2中,没有这样的问题,您可以使用“json”或“msgpack的序列化程序。
#SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

# 不要清理Redis队列,允许暂停/恢复爬行.
#SCHEDULER_PERSIST = True

# 使用优先队列调度请求。(默认)
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 选择队列
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

#马克斯空闲时间防止蜘蛛在分布式爬行时被关闭。
#这仅在队列类是spiderqueue或spiderstack,
#也可能在第一次启动蜘蛛时(因为队列是空的)阻塞相同的时间。
#SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 在redis中存储被刮过的项目,用于后期处理
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

# 项目管道序列化并将项目存储在这个红色的关键字中.
#REDIS_ITEMS_KEY = '%(spider)s:items'

#该项目是默认的序列化程序ScrapyJSONEncoder 你可以用任何一个可调用对象的重要路径
#REDIS_ITEMS_SERIALIZER = 'json.dumps'

# 在连接到Redis时指定要使用的主机和端口(可选
#REDIS_HOST = 'localhost'
#REDIS_PORT = 6379

# 为连接指定完整的Redis URL(可选).
#如果设置,这将优先于REDIS主机和REDIS端口设置。
#REDIS_URL = 'redis://user:pass@hostname:9001'

# 定制的redis客户端参数(例如:套接字超时等。)
#REDIS_PARAMS  = {}
# 使用定制的redis客户端类.
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

#如果是真的,它使用redis的` ` SPOP ` `操作。你必须使用` ` Sadd ` `
#命令添加URL到redis队列。如果你有这个可能有用
#要避免重复在您的起始URL列表和顺序处理无所谓。
#REDIS_START_URLS_AS_SET = False

# 用于redis蛛和re椎间盘爬行器的默认启动url键
#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#为redis使用其他编码,而不是使用utf-8
#REDIS_ENCODING = 'latin1'

注意:
3.0版本修改了从编组到cPickle的请求序列化,因此,使用版本2.0的请求无法使用3.0

运行示例项目

这个例子说明了如何在多个爬虫实例之间共享一个爬虫请求队列,这非常适合广泛的爬虫。

类RedisSpider。redis爬虫能够从redis读取url。redis队列中的url将依次处理,如果第一个请求产生更多请求,那么爬虫处理这些请求,然后从redis获取另一个url。

例如,创建一个文件myspider。下面的代码

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
    name = 'myspider'

    def parse(self, response):
        # do stuff
        pass

然后,
1.运行爬虫:

scrapy runspider myspider.py

2.把url放进redis

redis-cli lpush myspider:start_urls http://google.com

注意:
这些爬虫依赖于爬虫的空闲信号来获取开始的url,因此在您推送一个新的url且爬虫开始爬行时,它可能会有几秒钟的延迟

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
数据采集 NoSQL 数据库
分布式爬虫scrapy+redis入门
利用分布式爬虫scrapy+redis爬取伯乐在线网站,网站网址:http://blog.jobbole.com/all-posts/ 后文中详情写了整个工程的流程,即时是新手按照指导走也能使程序成功运行。
1628 0
|
数据采集 NoSQL Redis
scrapy-redis学习记录(一)
最近在搞爬虫,总听说scrapy多么多么强大,个人认为初学者先自己去理解爬虫的几个重要的点,手动去写爬虫,等到熟悉过后觉得没有提升了再去看框架之类的东西。
1163 0
|
NoSQL Redis Python
Scrapy结合Redis实现增量爬取
Scrapy适合做全量爬取,但是,我们不是一次抓取完就完事了。很多情况,我们需要持续的跟进抓取的站点,增量抓取是最需要的。 Scrapy与Redis配合,在写入数据库之前,做唯一性过滤,实现增量爬取。
1943 0
|
8天前
|
NoSQL Linux Redis
06- 你们使用Redis是单点还是集群 ? 哪种集群 ?
**Redis配置:** 使用哨兵集群,结构为1主2从,加上3个哨兵节点,总计分布在3台Linux服务器上,提供高可用性。
17 0
|
17天前
|
负载均衡 监控 NoSQL
Redis的集群方案有哪些?
Redis集群包括主从复制(基础,手动故障恢复)、哨兵模式(自动高可用)和Redis Cluster(官方分布式解决方案,自动分片和容错)。此外,还有如Codis、Redisson和Twemproxy等第三方工具用于代理和负载均衡。选择方案需考虑应用场景、数据规模和并发需求。
17 2
|
22天前
|
NoSQL Redis
Redis集群(六):集群常用命令及说明
Redis集群(六):集群常用命令及说明
15 0
|
2月前
|
运维 NoSQL 算法
Redis-Cluster 与 Redis 集群的技术大比拼
Redis-Cluster 与 Redis 集群的技术大比拼
46 0
|
16天前
|
NoSQL Java 测试技术
面试官:如何搭建Redis集群?
**Redis Cluster** 是从 Redis 3.0 开始引入的集群解决方案,它分散数据以减少对单个主节点的依赖,提升读写性能。16384 个槽位分配给节点,客户端通过槽位信息直接路由请求。集群是无代理、去中心化的,多数命令直接由节点处理,保持高性能。通过 `create-cluster` 工具快速搭建集群,但适用于测试环境。在生产环境,需手动配置文件,启动节点,然后使用 `redis-cli --cluster create` 分配槽位和从节点。集群动态添加删除节点、数据重新分片及故障转移涉及复杂操作,包括主从切换和槽位迁移。
28 0
面试官:如何搭建Redis集群?
|
20天前
|
存储 缓存 NoSQL
【Redis深度专题】「核心技术提升」探究Redis服务启动的过程机制的技术原理和流程分析的指南(集群功能分析)(一)
【Redis深度专题】「核心技术提升」探究Redis服务启动的过程机制的技术原理和流程分析的指南(集群功能分析)
41 0
|
30天前
|
NoSQL Redis Docker
使用Docker搭建一个“一主两从”的 Redis 集群(超详细步骤)
使用Docker搭建一个“一主两从”的 Redis 集群(超详细步骤)
30 0

热门文章

最新文章