备案控制台

开发者社区

开发者社区开发与运维文章正文

Scrapy基础——Cookies和Session

2016-06-16 2442

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我在Python爬虫基础-模拟登陆曾经谈过Cookies和Session。那么如何我想使用Scrapy进行模拟登陆，那么肯定要逃不过Cookies和Session。

我在Python爬虫基础-模拟登陆曾经谈过Cookies和Session。那么如何我想使用Scrapy进行模拟登陆，那么肯定要逃不过Cookies和Session。这篇文章主要为了解决下图这个问题，即如何管理为每一个独立的请求保留其对应的cookies。

图片来自互联网

幸运的是官方文档给了解决方案。

Multiple cookie sessions per spider

There is support for keeping multiple cookie sessions per spider by using the cookiejar
Request meta key. By default it uses a single cookie jar (session), but you can pass an identifier to use different ones.

官方给出的例子：

for i, url in enumerate(urls):
    yield scrapy.Request(url, meta={'cookiejar': i},
        callback=self.parse_page)
    ##请记住，cookjar元键(meta key)不会一直保留。你需要在后续请求重进行传递。 例如：
    Keep in mind that the cookiejar meta key is not “sticky”. 
    You need to keep passing it along on subsequent requests. For example:

def parse_page(self, response):
    # do some processing
    return scrapy.Request("http://www.example.com/otherpage",
        meta={'cookiejar': response.meta['cookiejar']},
        callback=self.parse_other_page)

文章标签：

Python

Java

数据采集

关键词：

Scrapy cookies

徐洲更

目录

相关文章

未闻Code

|

11月前

|

数据采集 Web App开发数据安全/隐私保护

为什么你用Scrapy 无法使用 Cookies登录

为什么你用Scrapy 无法使用 Cookies登录

未闻Code

57 0 0

码农技术君

|

数据采集中间件 Python

Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟(2)

Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟(2)

码农技术君

299 0 0

Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟(2)

码农技术君

|

数据采集中间件 Python

Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟(1)

Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟(1)

码农技术君

254 0 0

天降攻城狮

|

数据采集 Web App开发 JavaScript

12、web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

模拟浏览器登录 start_requests()方法，可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_urls，start_requests()返回的请求会替代star...

天降攻城狮

1729 0 0

shuj

|

3月前

|

数据采集存储数据处理

Scrapy：Python网络爬虫框架的利器

在当今信息时代，网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践，以及其在数据采集和处理过程中的应用。

shuj

23 1 1

小白学大数据

|

4月前

|

数据采集调度 Python

Scrapy爬虫中合理使用time.sleep和Request

Scrapy爬虫中合理使用time.sleep和Request

小白学大数据

39 0 0

小白学大数据

|

25天前

|

数据采集 Web App开发搜索推荐

项目配置之道：优化Scrapy参数提升爬虫效率

项目配置之道：优化Scrapy参数提升爬虫效率

小白学大数据

17 0 0

请看我回答~

|

3月前

|

数据采集存储调度

Scrapy：解锁网络爬虫新境界

在当今信息爆炸的时代，获取并处理大量网络数据是互联网行业中至关重要的一环。Python网络爬虫框架Scrapy作为一款高效、灵活的工具，为开发者提供了强大的能力来抓取、解析和存储各类网页信息。本文将介绍Scrapy的概念、主要特点以及实践经验，帮助读者掌握这一工具，并在实际项目中应用。

请看我回答~

30 2 2

技术混子

|

3月前

|

数据采集存储机器人

Scrapy网络爬虫框架——从入门到实践

网络爬虫已经成为了信息获取的必备工具之一，而Scrapy作为Python中最流行的网络爬虫框架之一，具有高效、可扩展、易用等特点。本文将深入介绍Scrapy框架的概念和实践，帮助读者快速掌握构建高质量网络爬虫的方法。

技术混子

48 0 0

我不是游客20240119

|

3月前

|

数据采集存储调度

Scrapy：从入门到实践的网络爬虫框架

Scrapy是一款强大的Python网络爬虫框架，可以帮助开发者更高效地抓取互联网上的数据。本文将介绍Scrapy的概念和基本原理，详细讲解如何使用Scrapy框架实现一个简单的网络爬虫，并分享一些实战经验和技巧。

我不是游客20240119

34 3 3

热门文章

最新文章

如何使用Scrapy提取和处理数据

介绍一下常见的爬虫框架或库，如`Scrapy`。

Scrapy分布式、去重增量爬虫的开发与设计

阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis

python 3.5 成功安装 scrapy 的步骤

【转】Duplicate Elimination in Scrapy

2、web爬虫，scrapy模块以及相关依赖模块安装

Python爬虫之scrapy从入门到忘记

scrapy爬虫学习

初识 scrapy 框架 - 安装

如何使用Scrapy提取和处理数据

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

Scrapy：解锁网络爬虫新境界

Scrapy网络爬虫框架——从入门到实践

Scrapy：从入门到实践的网络爬虫框架

Scrapy框架 -- 结合百度AI实现文本处理

Scrapy框架 -- 结合selenium获取动态加载数据

Scrapy框架 -- 中间件介绍

Scrapy框架 -- POST请求实现案例

Scrapy框架 -- 深度爬取并持久化保存图片

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）