备案控制台

开发者社区

开发者社区大数据文章正文

Python网络爬虫之urllib2的使用细节与抓站技巧

2018-01-14 895

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现一、伪装成浏览器访问+表单data的处理示例1二、获取访问Cookie的值示例2三、Proxy的设置及Timeout 设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

一、伪装成浏览器访问+表单data的处理

示例1

二、获取访问Cookie的值

示例2

三、Proxy的设置及Timeout 设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，那么可以使用如下代理操作

示例3

四、使用 urllib2时打开Debug Log模式

debug Log 的打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作，这样就可以看到传输的数据包内容了。

示例4

五、对付"反盗链"

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP，可以直接把X-Forwarde-For改了

示例5

资料来源：感谢汪童鞋的分享

文章标签：

Python

数据采集

关键词：

Python网络爬虫

爬虫python

Python网络

Python爬虫

Python urllib

keitwotest

目录

相关文章

桃李春风一杯酒

|

6天前

|

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

23 2 2

1941623231718325

|

7天前

|

安全 Java 数据处理

Python网络编程基础（Socket编程）多线程/多进程服务器编程

【4月更文挑战第11天】在网络编程中，随着客户端数量的增加，服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求，我们通常需要采用多线程或多进程的方式。在本章中，我们将探讨多线程/多进程服务器编程的概念，并通过一个多线程服务器的示例来演示其实现。

1941623231718325

26 0 0

1941623231718325

|

7天前

|

程序员开发者 Python

Python网络编程基础（Socket编程）错误处理和异常处理的最佳实践

【4月更文挑战第11天】在网络编程中，错误处理和异常管理不仅是为了程序的健壮性，也是为了提供清晰的用户反馈以及优雅的故障恢复。在前面的章节中，我们讨论了如何使用`try-except`语句来处理网络错误。现在，我们将深入探讨错误处理和异常处理的最佳实践。

1941623231718325

18 2 2

java开发-郭老师

|

10天前

|

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0

【python】爬虫-西安医学院-校长信箱

didiplus

|

16天前

|

数据采集安全 Python

python并发编程:Python实现生产者消费者爬虫

python并发编程:Python实现生产者消费者爬虫

didiplus

23 0 0

python并发编程:Python实现生产者消费者爬虫

小白学大数据

|

28天前

|

数据采集数据挖掘调度

异步爬虫实践攻略：利用Python Aiohttp框架实现高效数据抓取

本文介绍了如何使用Python的Aiohttp框架构建异步爬虫，以提升数据抓取效率。异步爬虫利用异步IO和协程技术，在等待响应时执行其他任务，提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架，适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码，并以爬取微信公众号文章为例，说明了实际应用中的步骤。

小白学大数据

47 1 1

xiejava

|

10天前

|

数据采集存储前端开发

Python爬虫如何快速入门

写了几篇网络爬虫的博文后，有网友留言问Python爬虫如何入门？今天就来了解一下什么是爬虫，如何快速的上手Python爬虫。

xiejava

17 0 0

1941623231718325

|

14天前

|

数据采集网络协议 API

python中其他网络相关的模块和库简介

【4月更文挑战第4天】Python网络编程有多个流行模块和库，如requests提供简洁的HTTP客户端API，支持多种HTTP方法和自动处理复杂功能；Scrapy是高效的网络爬虫框架，适用于数据挖掘和自动化测试；aiohttp基于asyncio的异步HTTP库，用于构建高性能Web应用；Twisted是事件驱动的网络引擎，支持多种协议和异步编程；Flask和Django分别是轻量级和全栈Web框架，方便构建不同规模的Web应用。这些工具使网络编程更简单和高效。

1941623231718325

16 6 6

小白学大数据

|

24天前

|

数据采集存储 Web App开发

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

小白学大数据

35 1 1

疯狂的猿

|

26天前

|

数据采集前端开发 JavaScript

Python爬虫零基础到爬啥都行

Python爬虫项目实战全程实录，你想要什么数据能随意的爬，不管抓多少数据几分钟就能爬到你的硬盘，需要会基本的前端技术（HTML、CSS、JAVASCRIPT）和LINUX、MYSQL、REDIS基础。

疯狂的猿

20 1 1

Python爬虫零基础到爬啥都行

热门文章

最新文章

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

轻松解决爬虫数据采集痛点

Rust高级爬虫：如何利用Rust抓取精美图片

网络爬虫与数据采集：使用Python自动化获取网页数据

python并发编程:Python实现生产者消费者爬虫

掌握 C# 爬虫技术：使用 HttpClient 获取今日头条内容

简单描述一下爬虫的工作原理。

Python爬虫零基础到爬啥都行

项目配置之道：优化Scrapy参数提升爬虫效率

python的request库如何拿到json的返回值

Python用PyMC3实现贝叶斯线性回归模型

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python用线性回归预测股票价格

Python数据可视化-seaborn Iris鸢尾花数据

笨办法学 Python3 第五版（预览）（三）(3)

笨办法学 Python3 第五版（预览）（三）(2)

笨办法学 Python3 第五版（预览）（二）(4)

笨办法学 Python3 第五版（预览）（二）(3)

笨办法学 Python3 第五版（预览）（一）(2)

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

使用Python完成RDS数据开发及分析

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

容器的自定义网络

下一篇

阿里云oss简介和使用流程