Python2 抓取百度贴吧图片

简介:

    我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import  re             #导入正则模块
import  urllib         #导入url库模块
 
#抓取页面的源码
def  getHtml(url):
     page  =  urllib.urlopen(url)        #打开指定的URL
     html  =  page.read()                #读取URL的内容并保存
     return  html                       #函数返回读取的内容
 
#下载源码中指定的图片    
def  getImg(html):
     reg  =  r 'src="(.+?\.jpg)" pic_ext'         
     imgre  =  re. compile (reg)
     imglist  =  imgre.findall(html)
     =  0
     for  imgurl  in  imglist:
         print (imgurl)
         #下载图片到指定的目录,并且重新命名
         urllib.urlretrieve(imgurl,r 'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg'  %  (i,x))
         =  +  1
 
#循环抓取所有的页面        
=  1
while  i <  74 :                 #贴吧共有74页评论
     html  =  getHtml( "http://tieba.baidu.com/p/2460150866?pn="  +  str (i))
     getImg(html)
     i + = 1
     print (i)


    下面是抓取的结果

wKioL1deaWDhCvxCAAR4fZV-LsI094.jpg




     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者






相关文章
|
2月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
72 0
|
2月前
|
缓存 API 定位技术
使用Python调用百度地图API实现地址查询
使用Python调用百度地图API实现地址查询
112 0
|
2月前
|
数据挖掘 数据安全/隐私保护 开发者
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
118 0
|
6天前
|
存储 索引 Python
python图片九宫格图片处理
本篇文章介绍了一个Python项目的实现,项目能够处理图片并将其组合成九宫格或四宫格,同时还具备音乐播放功能,对于初学者来说是一个可以进行实战学习的初级项目。
19 5
|
6天前
|
存储 计算机视觉 Python
python实现Gif图片的字符画
这是一个Python实战项目,旨在将GIF动态图转化为ASCII字符动画。项目适合有一定Python基础的学习者,主要使用os、imageio、PIL库。首先,代码导入所需库,然后通过PIL创建空白图片并添加文本。接着,程序读取GIF,拆分帧并转为字符画,存入“tmp”目录。同时,代码提供了清空“tmp”目录、将灰度值映射为ASCII字符、将图片处理成字符画的函数。此外,还有创建新画布和合成GIF的步骤。主函数调用这些模块,最终将ASCII字符画合并成GIF。项目展示了将动态图像转换为ASCII艺术的过程。
24 0
|
9天前
|
Python
python代码根据点坐标裁切图片
【4月更文挑战第19天】python代码根据点坐标裁切图片
23 2
|
17天前
|
Python
使用Python的Requests库进行网络请求和抓取网页数据
【4月更文挑战第20天】使用Python Requests库进行网络请求和网页数据抓取的步骤包括:安装库(`pip install requests`)、导入库、发送GET/POST请求、检查响应状态码、解析内容、处理Cookies、设置请求头以及异常处理。通过`response`对象访问响应信息,如`status_code`、`text`、`content`和`cookies`。可设置`headers`模拟用户代理,用`try-except`处理异常。
19 7
|
18天前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
18天前
|
Python
如何使用Python的Requests库进行网络请求和抓取网页数据?
【4月更文挑战第19天】使用Python Requests库进行网络请求和网页数据抓取:安装库,导入requests,发送GET/POST请求,检查状态码(如`status_code==200`表示成功),解析响应内容(如`response.text`),处理Cookies和请求头,以及用try-except捕获异常。更多功能可深入学习Requests库。
10 2
|
19天前
|
机器学习/深度学习 算法 自动驾驶
opencv python 图片叠加
【4月更文挑战第17天】