Python爬虫! 单爬,批量爬,这都不是事!

简介: 昨天做了一个煎蛋网妹子图的爬虫,个人感觉效果不错。但是每次都得重复的敲辣么多的代码(相比于Java或者其他语言的爬虫实现,Python的代码量可谓是相当的少了),就封装了一下!可以实现对批量网址以及单个网址的爬虫!核心代码# coding:UTF-8# 导入我们需...

昨天做了一个煎蛋网妹子图的爬虫,个人感觉效果不错。但是每次都得重复的敲辣么多的代码(相比于Java或者其他语言的爬虫实现,Python的代码量可谓是相当的少了),就封装了一下!可以实现对批量网址以及单个网址的爬虫!


核心代码

# coding:UTF-8

# 导入我们需要的网络模块,正则表达式模块,以及产生随机数的模块
import urllib2,urllib,re,random

# 根据传入的URL网址,获得该网址对应的全部的html页面(纯网页,并没有做任何的解析)
def getHtml(url,headers) :
    request = urllib2.Request(url,headers=headers)
    response = urllib2.urlopen(request)
    page = response.read()
    return page

# 根据之前获得那个url对应的网页信息,将这张网页里面包含的所有的含有<img src=".+\.jpg"/>的url存储到一个列表中
def getImageUrls(page):
    reg = r'src="(.+?\.jpg)"'
    imageReg = re.compile(reg)
    img_urls = re.findall(imageReg,page)
    return img_urls

# 这是个测试的方法,并没有实际的价值。列出来的目的只是为了纪念一下,最终功能实现的这个过程,仅此!
# def getTotalImageUrls(original_url,headers):
#     totalImageUrls = []
#     for item in range(1980, 1990):
#         original_url += original_url + str(item)
#         page = getHtml(original_url,headers)
#         images_url = getImageUrls(page)
#         totalImageUrls.append(images_url)
#         return totalImageUrls

# 根据给定的路径,文件名,将指定的数据(这里是一张图片,是的。一张图片)写入到文件中。需要注意的是每次都需要关闭file
def writeToFile(path,name,data):
    file = open(path+name,'wb')
    file.write(data)
    file.close()
    print name+" has been Writed Succeed!"

# 下载图片,并且调用刚才的  writeToFile(path,name,data): 函数。将图片直接写到对应的路径下面
# 这里借助于一个random模块,为了产生图片之间尽量不重复的文件名,以防止文件的覆盖或者出现其他的问题
def downloadImages(images_url,path,headers) :
    for i, item in enumerate(images_url):
        everypicture = getHtml(item,headers)
        # 此处下载之后的文件使用了item来命名是为了避免图片的覆盖
        writeToFile(path, str(i+random.randint(1,100000000)) + ".jpg", everypicture)


# 提供单个url网址内图片的下载
def singleImageDownload(outputPath,targeturl,headers) :
    originalurl = targeturl
    page = getHtml(originalurl,headers)
    images_url = getImageUrls(page)
    downloadImages(images_url,path,headers)




# 提供批量下载的函数,对未成功下载的提示未成功下载语句
def batchImageDownload(outputPath, originalurl, headers, start, end):
    for item in range(2000, 4000):
        try:
            originalurl = 'http://bizhi.souutu.com/mnbz/' + str(item) + '.html'
            page = getHtml(originalurl)
            images_url = getImageUrls(page)
            downloadImages(images_url,headers)
        except:
            print str(item) + str(' web site cannot be spidered! Sorry!')
            continue


# --------------------------------------------------------------------------------------------------
# 下面是我们的测试代码,仅仅拿单个url页面做了个测试,亲测好使


headers = {
    'referer':'http://bizhi.souutu.com/mnbz/3712.html',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}

path = "F:\\pachong\\bizhi\\"
url = 'http://bizhi.souutu.com/mnbz/3712.html'
singleImageDownload(path,url,headers)

后话

这里并没有使用类来进行封装,没有用BeautifulSoup的原因是我还没学到

无奈.装傻~ 
( ̄▽ ̄)~* ( ̄▽ ̄)" ╮(╯▽╰)╭ ╮( ̄▽ ̄)╭ 

但是咧,这在Python中是不妨碍滴,照样爬嘛,(^__^) 嘻嘻……
我是新手,代码中可能有不恰当的地方,欢迎批评指正!

目录
相关文章
|
7天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
11天前
|
数据采集 Python
【python】爬虫-西安医学院-校长信箱
本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。
【python】爬虫-西安医学院-校长信箱
|
30天前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
65 0
|
17天前
|
数据采集 安全 Python
python并发编程:Python实现生产者消费者爬虫
python并发编程:Python实现生产者消费者爬虫
24 0
python并发编程:Python实现生产者消费者爬虫
|
29天前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
12天前
|
数据采集 存储 前端开发
Python爬虫如何快速入门
写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。
17 0
|
25天前
|
数据采集 存储 Web App开发
一键实现数据采集和存储:Python爬虫、Pandas和Excel的应用技巧
一键实现数据采集和存储:Python爬虫、Pandas和Excel的应用技巧
|
27天前
|
数据采集 前端开发 JavaScript
Python爬虫零基础到爬啥都行
Python爬虫项目实战全程实录,你想要什么数据能随意的爬,不管抓多少数据几分钟就能爬到你的硬盘,需要会基本的前端技术(HTML、CSS、JAVASCRIPT)和LINUX、MYSQL、REDIS基础。
20 1
Python爬虫零基础到爬啥都行
|
1月前
|
数据采集 Web App开发 数据安全/隐私保护
Python爬虫-使用代理伪装IP
介绍代理,设置代理,使用代理伪装IP案例
23 0
|
1月前
|
数据采集 JSON NoSQL
python爬虫 Appium+mitmdump 京东商品
python 爬虫 Charles + appium + mitmproxy 实现 app 京东商品数据获取
29 0