Python爬虫学习笔记-1.Urllib库

简介:   urllib 是python内置的基本库,提供了一系列用于操作URL的功能,我们可以通过它来做一个简单的爬虫。 0X01 基本使用 简单的爬取一个页面: import urllib2 request = urllib2.

  urllib 是python内置的基本库,提供了一系列用于操作URL的功能,我们可以通过它来做一个简单的爬虫。

0X01 基本使用

简单的爬取一个页面:

import urllib2
request = urllib2.Request("http://www.cnblogs.com")
response = urllib2.urlopen(request)
print response.read()

  GET方式

import urllib
import urllib2
values ={"id":1}
data=urllib.urlencode(values)
url="http://192.168.125.129/config/sql.php"
geturl=url+"?"+data
request =urllib2.Request(url)
response =urllib2.urlopen(request)
print response.read()

 POST方式

import urllib
import urllib2
url="http://192.168.125.129/config/sql.php"
values ={"id":1}
data=urllib.urlencode(values)
request = urllib2.Request(url,data)
response=urllib2.urlopen(request)
print response.read()

 0X02 高级用法

1、设置Headers

  部分网站做了反爬虫策略,通过上面的程序,可能会获取不到内容,这时候我们可以模拟浏览器的工作,设置一些Headers 的属性。

import urllib
import urllib2
url="http://192.168.125.129/config/sql.php"
values ={"id":1}
data=urllib.urlencode(values)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}
request=urllib2.Request(url,data,headers)
response =urllib2.urlopen(request)
print response.read()

常见的headers属性

User-Agent : 浏览器类型,有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时,服务器会检查该值,用来确定 HTTP Body 中的内容该怎样解析。
application/xml : 在 XML RPC,如 RESTful/SOAP 调用时使用
application/json : 在 JSON RPC 调用时使用
application/x-www-form-urlencoded : 浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时, Content-Type 设置错误会导致服务器拒绝服务

另外,对付防盗链,可以在headers中加入referer。

2、设置Timeout 

      urllib2.urlopen方法,如果第二个参数data为空那么要特别指定是timeout是多少,写明形参,如果data已经传入,则不必声明。

import urllib
import urllib2
url="http://192.168.125.129/config/sql.php"
response = urllib2.urlopen(url, timeout=10)


import urllib
import urllib2
url="http://192.168.125.129/config/sql.php"
values ={"id":1}
data=urllib.urlencode(values)
response = urllib2.urlopen(url, data,10)

 3、异常处理

  当程序异常时,需要用try-except语句来包围并捕获相应的异常,否则程序将终止。

import urllib
import urllib2
url="http://192.168.125.129/config/sql22.php"
values ={"id":1}
data=urllib.urlencode(values)
try:
    request = urllib2.Request(url,data)
    response=urllib2.urlopen(request)
    print response.read()
except urllib2.HTTPError, e:
    print e.code
    print e.reason
except urllib2.URLError, e:
    print e.reason

else:
    print "ok"

这边使用URLError、HTTPError捕获异常,HTTPError是URLError的子类。

  4、模拟登陆

  利用cookie实现模拟登录,使用cookielib模块,代码示例:

import urllib
import urllib2
import cookielib

filename = 'cookie.txt'
#声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
            'username':'admin',
            'password':'password'
        })
#登录的URL
loginUrl = 'http://site/login.php'
#模拟登录,并把cookie保存到变量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie请求访问另一个网址,此网址是后台网址
comurl = 'http://site/index.php'
#请求访问后台网址
result = opener.open(comurl)
print result.read()

 

目录
相关文章
|
7天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
10天前
|
数据采集 Python
【python】爬虫-西安医学院-校长信箱
本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。
【python】爬虫-西安医学院-校长信箱
|
19天前
|
存储 C语言 Python
【Python】学习笔记day3
【Python】学习笔记day3
26 1
|
17天前
|
数据采集 安全 Python
python并发编程:Python实现生产者消费者爬虫
python并发编程:Python实现生产者消费者爬虫
23 0
python并发编程:Python实现生产者消费者爬虫
|
11天前
|
数据采集 存储 前端开发
Python爬虫如何快速入门
写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。
17 0
|
24天前
|
数据采集 存储 Web App开发
一键实现数据采集和存储:Python爬虫、Pandas和Excel的应用技巧
一键实现数据采集和存储:Python爬虫、Pandas和Excel的应用技巧
|
26天前
|
算法 搜索推荐 测试技术
python排序算法及优化学习笔记1
python实现的简单的排序算法,以及算法优化,学习笔记1
33 1
|
27天前
|
数据采集 前端开发 JavaScript
Python爬虫零基础到爬啥都行
Python爬虫项目实战全程实录,你想要什么数据能随意的爬,不管抓多少数据几分钟就能爬到你的硬盘,需要会基本的前端技术(HTML、CSS、JAVASCRIPT)和LINUX、MYSQL、REDIS基础。
20 1
Python爬虫零基础到爬啥都行