scrapy官方文档提供的常见使用问题-阿里云开发者社区

scrapy官方文档提供的常见使用问题

2019-03-21 1526

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

全局流量管理 GTM，标准版 1个月

简介： Scrapy与BeautifulSoup或lxml相比如何？BeautifulSoup和lxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的应用程序框架，可以抓取网站并从中提取数据。

Scrapy与BeautifulSoup或lxml相比如何？

BeautifulSoup和lxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的应用程序框架，可以抓取网站并从中提取数据。

Scrapy提供了一种用于提取数据的内置机制（称为选择器），但如果您觉得使用它们感觉更舒服，则可以轻松使用BeautifulSoup （或lxml）。毕竟，他们只是解析可以从任何Python代码导入和使用的库。

换句话说，将BeautifulSoup（或lxml）与Scrapy进行比较就像将jinja2与Django进行比较一样。

我可以和BeautifulSoup一起使用Scrapy吗？

是的你可以。如所提到的上面，BeautifulSoup可用于在Scrapy回调解析HTML响应。您只需将响应的主体提供给BeautifulSoup对象并从中提取所需的任何数据。

这是使用BeautifulSoup API的示例蜘蛛，lxml作为HTML解析器：

from bs4 import BeautifulSoup
import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = (
        'http://www.example.com/',
    )

    def parse(self, response):
        # use lxml to get decent HTML parsing speed
        soup = BeautifulSoup(response.text, 'lxml')
        yield {
            "url": response.url,
            "title": soup.h1.string
        }

        
          
        
        
        
          
          AI 代码解读

注意

BeautifulSoup支持多个HTML / XML解析器。请参阅BeautifulSoup的官方文档，了解哪些可用。

Scrapy支持哪些Python版本？

在CPython（默认Python实现）和PyPy（从PyPy 5.9开始）下，Python 2.7和Python 3.4+支持Scrapy。从Scrapy 0.20开始，Python 2.6支持被删除。Scrapy 1.1中添加了Python 3支持。在Scrapy 1.4中添加了PyPy支持，在Scrapy 1.5中添加了PyPy3支持。

注意

对于Windows上的Python 3支持，建议按照安装指南中的说明使用Anaconda / Miniconda 。

Scrapy是否从Django“窃取”？

可能，但我们不喜欢这个词。我们认为Django是一个很好的开源项目，也是一个值得关注的例子，因此我们将它作为Scrapy的灵感来源。

我们相信，如果事情已经做好，就没有必要重新发明它。这个概念除了是开源和自由软件的基础之外，不仅适用于软件，还适用于文档，程序，策略等。因此，我们不是自己解决每个问题，而是选择从这些项目中复制想法。已经妥善解决了这些问题，并专注于我们需要解决的实际问题。

如果Scrapy是其他项目的灵感，我们会感到自豪。随意偷我们！

Scrapy是否适用于HTTP代理？

是。通过HTTP代理下载器中间件提供对HTTP代理的支持（自Scrapy 0.8起）。见HttpProxyMiddleware。

如何在不同页面中抓取具有属性的项目？

请参阅将其他数据传递给回调函数。

Scrapy崩溃：ImportError：ImportError: No module named win32api

由于这个Twisted错误，你需要安装pywin32。

如何在蜘蛛中模拟用户登录？

请参阅使用FormRequest.from_response（）来模拟用户登录。

Scrapy是以广度优先还是深度优先的顺序爬行？

默认情况下，Scrapy使用LIFO队列来存储挂起的请求，这基本上意味着它以DFO顺序进行爬网。在大多数情况下，此订单更方便。如果您确实想要以真正的BFO顺序进行爬网，可以通过设置以下设置来执行此操作：

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

        
          
        
        
        
          
          AI 代码解读

我的Scrapy爬虫有内存泄漏。我能做什么？

请参阅调试内存泄漏。

此外，Python有内置内存泄漏问题，泄漏中描述没有泄漏。

如何让Scrapy消耗更少的内存？

见上一个问题。

我可以在蜘蛛中使用基本HTTP身份验证吗？

是的，看HttpAuthMiddleware。

为什么Scrapy用英语而不是我的母语下载页面？

尝试通过覆盖设置来更改默认的Accept-Language请求标头 DEFAULT_REQUEST_HEADERS。

我在哪里可以找到一些示例Scrapy项目？

见例子。

我可以在不创建项目的情况下运行蜘蛛吗？

是。您可以使用该runspider命令。例如，如果您在my_spider.py文件中编写了一个蜘蛛，则可以使用以下命令运行它：

scrapy runspider my_spider.py

有关runspider详细信息，请参阅命令

我收到“Filtered offsite request”消息。我该如何解决这些问题？

这些消息（以DEBUG级别记录）并不一定意味着存在问题，因此您可能不需要修复它们。

这些消息是由非现场蜘蛛中间件抛出的，它是一个蜘蛛中间件（默认启用），其目的是过滤掉蜘蛛所覆盖范围之外的域的请求。

有关更多信息，请参阅： OffsiteMiddleware。

在生产中部署Scrapy搜寻器的推荐方法是什么？

请参阅部署Spider。

我可以将JSON用于大型出口吗？

这取决于你的输出有多大。请参阅此警告的JsonItemExporter 文档。

我可以从信号处理程序返回（扭曲）延迟吗？

有些信号支持从处理程序返回延迟，其他信号则不支持。请参阅内置信号参考以了解哪些参考。

响应状态代码999的含义是什么？

999是Yahoo站点用于限制请求的自定义响应状态代码。尝试使用2蜘蛛中的下载延迟（或更高）来降低爬行速度：

class MySpider(CrawlSpider):



name = 'myspider'



download_delay = 2



# [ ... rest of the spider code ... ]

或者使用设置在项目中设置全局下载延迟 DOWNLOAD_DELAY。

我可以调用`pdb.set_trace()`给我的蜘蛛进行调试吗？

是的，但您也可以使用Scrapy shell，它允许您快速分析（甚至修改）蜘蛛处理的响应，这通常比普通的更有用pdb.set_trace()。

有关更多信息，请参阅从spiders调用shell以检查响应。

将所有已删除项目转储到JSON / CSV / XML文件的最简单方法是什么？

要转储到JSON文件中：

scrapy crawl myspider -o items.json

要转储到CSV文件：

scrapy crawl myspider -o items.csv

要转储到XML文件中：

scrapy crawl myspider -o items.xml

有关更多信息，请参阅Feed导出

`__VIEWSTATE`在某些形式中使用的这个巨大的神秘参数是什么？

该__VIEWSTATE参数用于使用ASP.NET / VB.NET构建的站点。有关其工作原理的详细信息，请参阅此页面。此外，这是一个蜘蛛的示例，它刮擦其中一个站点。

Scrapy是否自动管理cookie？

是的，Scrapy接收并跟踪服务器发送的cookie，并将其发送回后续请求，就像任何常规Web浏览器一样。

有关更多信息，请参阅请求和响应以及CookiesMiddleware。

如何查看Scrapy发送和接收的cookie？

启用COOKIES_DEBUG设置。

我如何指导蜘蛛自行停止？

CloseSpider从回调中提出异常。有关更多信息，请参阅：CloseSpider。

如何防止我的Scrapy机器人被禁止？

请参阅避免被禁止。

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗？

这两种蜘蛛的参数和设置，可以用于配置您的蜘蛛。没有严格的规则要求使用其中一个，但设置更适合参数，一旦设置，变化不大，而蜘蛛参数意味着更频繁地更改，即使在每个蜘蛛运行时，有时是蜘蛛根本需要运行（例如，设置蜘蛛的起始URL）。

举一个例子来说明，假设您有一个需要登录站点来抓取数据的蜘蛛，并且您只想从站点的某个部分（每次都有所不同）中抓取数据。在这种情况下，登录的凭据将是设置，而要刮取的部分的URL将是蜘蛛参数。

我正在抓取一个XML文档，我的XPath选择器不会返回任何项目

您可能需要删除命名空间。请参阅删除命名空间。

程序流程没问题，启动就自动停止，也无报错

这可能是Spider中解析函数命名和关键词命名重合，导致回调不执行，不能增量抓取，短时间即停止

scrapy官方文档提供的常见使用问题

Scrapy与BeautifulSoup或lxml相比如何？

我可以和BeautifulSoup一起使用Scrapy吗？

Scrapy支持哪些Python版本？

Scrapy是否从Django“窃取”？

Scrapy是否适用于HTTP代理？

如何在不同页面中抓取具有属性的项目？

Scrapy崩溃：ImportError：ImportError: No module named win32api

如何在蜘蛛中模拟用户登录？

Scrapy是以广度优先还是深度优先的顺序爬行？

我的Scrapy爬虫有内存泄漏。我能做什么？

如何让Scrapy消耗更少的内存？

我可以在蜘蛛中使用基本HTTP身份验证吗？

为什么Scrapy用英语而不是我的母语下载页面？

我在哪里可以找到一些示例Scrapy项目？

我可以在不创建项目的情况下运行蜘蛛吗？

我收到“Filtered offsite request”消息。我该如何解决这些问题？

在生产中部署Scrapy搜寻器的推荐方法是什么？

我可以将JSON用于大型出口吗？

我可以从信号处理程序返回（扭曲）延迟吗？

响应状态代码999的含义是什么？

我可以调用`pdb.set_trace()`给我的蜘蛛进行调试吗？

将所有已删除项目转储到JSON / CSV / XML文件的最简单方法是什么？

`__VIEWSTATE`在某些形式中使用的这个巨大的神秘参数是什么？

Scrapy是否自动管理cookie？

如何查看Scrapy发送和接收的cookie？

我如何指导蜘蛛自行停止？

如何防止我的Scrapy机器人被禁止？

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗？

我正在抓取一个XML文档，我的XPath选择器不会返回任何项目

程序流程没问题，启动就自动停止，也无报错

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

scrapy官方文档提供的常见使用问题

Scrapy与BeautifulSoup或lxml相比如何？

我可以和BeautifulSoup一起使用Scrapy吗？

Scrapy支持哪些Python版本？

Scrapy是否从Django“窃取”？

Scrapy是否适用于HTTP代理？

如何在不同页面中抓取具有属性的项目？

Scrapy崩溃：ImportError：ImportError: No module named win32api

如何在蜘蛛中模拟用户登录？

Scrapy是以广度优先还是深度优先的顺序爬行？

我的Scrapy爬虫有内存泄漏。我能做什么？

如何让Scrapy消耗更少的内存？

我可以在蜘蛛中使用基本HTTP身份验证吗？

为什么Scrapy用英语而不是我的母语下载页面？

我在哪里可以找到一些示例Scrapy项目？

我可以在不创建项目的情况下运行蜘蛛吗？

我收到“Filtered offsite request”消息。我该如何解决这些问题？

在生产中部署Scrapy搜寻器的推荐方法是什么？

我可以将JSON用于大型出口吗？

我可以从信号处理程序返回（扭曲）延迟吗？

响应状态代码999的含义是什么？

我可以调用pdb.set_trace()给我的蜘蛛进行调试吗？

将所有已删除项目转储到JSON / CSV / XML文件的最简单方法是什么？

__VIEWSTATE在某些形式中使用的这个巨大的神秘参数是什么？

Scrapy是否自动管理cookie？

如何查看Scrapy发送和接收的cookie？

我如何指导蜘蛛自行停止？

如何防止我的Scrapy机器人被禁止？

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗？

我正在抓取一个XML文档，我的XPath选择器不会返回任何项目

程序流程没问题，启动就自动停止，也无报错

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

我可以调用`pdb.set_trace()`给我的蜘蛛进行调试吗？

`__VIEWSTATE`在某些形式中使用的这个巨大的神秘参数是什么？