使用scrapy 1.6自带的Telnet控制台

简介: Scrrapy附带一个内置的telnet控制台,用于检查和控制Scrapy运行过程。telnet控制台只是运行在Scrapy进程中的常规python shell,因此您可以从它执行任何操作。telnet控制台是内置Scrapy扩展默认情况下是启用的,但如果需要,也可以禁用它。

Scrrapy附带一个内置的telnet控制台,用于检查和控制Scrapy运行过程。telnet控制台只是运行在Scrapy进程中的常规python shell,因此您可以从它执行任何操作。

telnet控制台是内置Scrapy扩展默认情况下是启用的,但如果需要,也可以禁用它。

警告

通过公共网络使用telnet控制台是不安全的,因为telnet不提供任何传输层协议的安全措施。

控制台作用是用于在相同主机或者相同网段的爬虫监控。


如何访问telnet控制台

中定义的tcp端口中侦听telnet控制台。TELNETCONSOLE_PORT设置,默认为6023。要访问控制台,在CMD命令界面使用命令telnet localhost 6023:

telnet localhost 6023
Trying localhost...
Connected to localhost.
Escape character is '^]'.
Username:
Password:
>>>


默认情况下,用户名是scrapy密码是自动生成的。自动生成的密码可以在下面的示例日志中看到:

2018-10-16 14:35:21 [scrapy.extensions.telnet] INFO: Telnet Password: 16f92501e8a59326

默认用户名和密码可以被设置覆盖  在配置文件中可以配置用户名和密码。

TELNETCONSOLE_USERNAME
TELNETCONSOLE_PASSWORD


警告

用户名和密码只提供有限的保护,因为telnet没有使用安全传输-默认情况下,即使设置用户名和密码,流量也不会加密。

您需要默认安装在Windows中的telnet程序和大多数Linux发行版。

telnet控制台中的可用变量

telnet控制台就像运行在Scrapy进程中的常规Python shell,所以您可以使用它做任何事情,包括导入新模块等等。

然而,为了方便起见,telnet控制台附带了一些默认变量:

捷径 描述
crawler 抓取爬行器(scrapy.crawler.Crawler对象)
engine Crawler.Engine属性
spider 活动蜘蛛
slot 发动机槽
extensions 扩展管理器(Crawler.Exments属性)
stats Stats收集器(Crawler.stats属性)
settings Scrapy设置对象(Crawler.Settions属性)
est 打印引擎状态报告
prefs 有关内存调试(请参见调试内存泄漏)
p 格式化输出pprint.pprint功能的快捷方式
hpy 有关内存调试(请参见调试内存泄漏)

Telnet控制台使用示例

下面是您可以使用telnet控制台执行的一些示例任务:

查看引擎状态

您可以使用est()方法,以便使用telnet控制台快速显示其状态:

telnet localhost 6023
>>> est()
Execution engine status

time()-engine.start_time                        : 8.62972998619
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : followall
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 92
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False


暂停,恢复并停止刮伤引擎

停顿:

telnet localhost 6023
>>> engine.pause()
>>>


恢复:

telnet localhost 6023
>>> engine.unpause()
>>>

停止:

telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.


Telnet控制台信号

  • scrapy.extensions.telnet.update_telnet_vars(Telnet VAR)

    在telnet控制台打开之前发送。您可以连接到此信号,以添加、删除或更新telnet本地命名空间中可用的变量。为此,您需要更新telnet_vars你的操纵者。

    Parameters:

    telnet_vars (dict ) – the dict of telnet variables


Telne相关配置参数


TELNETCONSOLE_PORT

Default: [6023, 6073]

用于telnet控制台的端口范围。如果设置为None或0,使用动态分配的端口


TELNETCONSOLE_HOST

Default: '127.0.0.1'

telnet控制台应该侦听的ip地址。


TELNETCONSOLE_USERNAME

Default: 'scrapy'

用于telnet控制台的用户名。


TELNETCONSOLE_PASSWORD

Default: None

用于telnet控制台的密码,默认行为是让它自动生成,在启动日志中可见。

关于Telnet

Telnet协议是TCP/IP协议族中的一员,是Internet远程登录服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。

在终端使用者的电脑上使用telnet程序,用它连接到服务器。终端使用者可以在telnet程序中输入命令,这些命令会在服务器上运行,就像直接在服务器的控制台上输入一样。

可以在本地就能控制服务器。要开始一个telnet会话,必须输入用户名和密码来登录服务器。Telnet是常用的远程控制Web服务器的方法。 

开启Telnet

win默认是没有开启该条命令及其相关功能,需要先在win电脑上开始。

在控制面板-程序-打开或关闭Windows功能-勾选“Telnet服务器”和“Telne客户端”

2019-03-20-22_17_47.png


相关文章
|
18天前
|
存储 Web App开发 安全
mitmproxy安装与配置
mitmproxy是一个免费的开源交互式的HTTPS代理工具。它类似于其他抓包工具如WireShark和Fiddler,支持抓取HTTP和HTTPS协议的数据包,并可以通过控制台形式进行操作。mitmproxy具有两个非常有用的组件:mitmdump和mitmweb。mitmdump是mitmproxy的命令行接口,可以直接抓取请求数据,而mitmweb是一个web程序,可以清楚地观察mitmproxy抓取的请求数据。
39 3
|
2月前
|
网络安全 数据库 Windows
Metasploit6.0系列教程 -- MSF控制台命令
Metasploit6.0系列教程 -- MSF控制台命令
18 1
|
4月前
|
安全 测试技术 API
Selenium框架添加CONNECT以抓取https网站
Selenium框架添加CONNECT以抓取https网站
|
5月前
|
Web App开发
chrome浏览器 导入burp证书 失败 无法抓包
chrome浏览器 导入burp证书 失败 无法抓包
122 0
|
6月前
|
机器学习/深度学习 网络协议 数据安全/隐私保护
Web网页浏览器远程访问jupyter notebook服务器【内网穿透】
Web网页浏览器远程访问jupyter notebook服务器【内网穿透】
|
8月前
|
数据采集 存储 NoSQL
实现网页认证:使用Scrapy-Selenium处理登录
在网络爬虫的世界中,我们经常需要面对一些需要用户认证的网页,如登录、注册验证等。本文将介绍如何使用Scrapy-Selenium来处理这类网页,实现自动化登录和爬取。
174 0
实现网页认证:使用Scrapy-Selenium处理登录
|
9月前
|
机器学习/深度学习 网络协议 数据可视化
在外web浏览器远程访问jupyter notebook服务器【内网穿透】
在外web浏览器远程访问jupyter notebook服务器【内网穿透】
153 0
|
9月前
|
JavaScript 图形学 Windows
Windows下通过命令行搭建HTTP/HTTPS服务器
在我们进行开发时,有时候遇到通过HTTP协议对服务器的数据进行访问的需求,因此我们需要搭建一个HTTP服务器,上文已讲解了通过界面配置HTTP服务器,本文使用命令行的方式在windows下通过Node.js的http-server服务命令去搭建一个本地服务
1109 0
|
11月前
|
安全 应用服务中间件 网络安全
【Python】快速简单搭建HTTP服务器并公网访问「cpolar内网穿透」
【Python】快速简单搭建HTTP服务器并公网访问「cpolar内网穿透」
374 0
|
Web App开发 前端开发 测试技术
新手教程 | Python自动化测试Selenium+chrome连接HTTP代理(账密+白名单)
虽然 Selenium 主要用于网站的前端测试,但其核心是浏览器用户代理库。本次来说说,Python使用Selenium调用Chrome浏览器并通过HTTP代理进行自动化测试