开发者社区大数据文章正文

小爬虫-一个网页上的.jpg图片下载下来

2014-08-07 680

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： import reimport urllibdef getHtml(html): page = urllib.urlopen(html) Html = page.

import re

import urllib

def getHtml ( html ):

page = urllib . urlopen ( html )

Html = page . read ()

return Html

def getImg ( Html ):

r = r'src="(.*?\.jpg)"' #正则r用来筛选图片的地址

img_re = re . compile ( r )

imgHtml = re . findall ( img_re , Html )

x = 0

for imght in imgHtml :

urllib . urlretrieve ( imght , " %s .jpg" % x ) #下载并保存图片

x += 1

html = getHtml ( "http://movie.douban.com/" )

getImg ( html )

文章标签：

数据采集

Python

关键词：

爬虫网页

小金子

桃李春风一杯酒

11天前

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

32 2 2

小白学大数据

1月前

数据采集 Web App开发 JavaScript

JavaScript爬虫进阶攻略：从网页采集到数据可视化

小白学大数据

46 1 1

游客7v53mftipku2u

3月前

数据采集开发者 Python

Python爬虫实战：利用Beautiful Soup解析网页数据

在网络爬虫的开发过程中，数据解析是至关重要的一环。本文将介绍如何利用Python的Beautiful Soup库来解析网页数据，包括解析HTML结构、提取目标信息和处理特殊情况，帮助开发者更好地实现爬虫功能。

游客7v53mftipku2u

37 2 2

叫个什么名字

2月前

数据采集存储前端开发

Python爬虫实战：动态网页数据抓取与分析

本文将介绍如何利用Python编写爬虫程序，实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式，我们可以利用Selenium等工具模拟浏览器行为，成功获取到需要的数据并进行进一步处理与展示。

叫个什么名字

47 2 2

学Python的Tony

数据采集 JSON BI

Python爬虫网页IP被封的问题分析

如果你在爬虫过程中有遇到“您的请求太过频繁，请稍后再试”，或者说代码完全正确，可是爬虫过程中突然就访问不了，那么恭喜你，你的爬虫被对方识破了，轻则给予友好提示警告，严重的可能会对你的ip进行封禁，所以代理ip那就尤为重要了。今天我们就来谈一下代理IP，去解决爬虫被封的问题。

学Python的Tony

626 0 0

叫个什么名字

1月前

数据采集存储监控

Python爬虫实战：利用BeautifulSoup解析网页数据

在网络信息爆炸的时代，如何快速高效地获取所需数据成为许多开发者关注的焦点。本文将介绍如何使用Python中的BeautifulSoup库来解析网页数据，帮助你轻松实现数据抓取与处理的技术。

叫个什么名字

24 1 1

游客762btuqu5wybw666

2月前

数据采集 XML 数据处理

Python爬虫实战：利用BeautifulSoup解析网页数据

本文将介绍如何利用Python中的BeautifulSoup库来解析网页数据，帮助读者更好地开发爬虫程序，实现自动化数据采集与处理。

游客762btuqu5wybw666

29 0 0

小白学大数据

3月前

数据采集 JSON API

使用phpQuery库进行网页数据爬虫案例

小白学大数据

37 0 0

技术空间

4月前

数据采集 XML 数据格式

python爬虫入门篇：如何解析爬取到的网页数据？试下最简单的BeautifulSoup库！

前面笔记解析了如何使用requests模块向网站发送http请求，获取到网页的HTML数据。这篇我们来如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。Beautiful Soup，简称bs4，是Python的一个HTML或XML的解析库，一般用它来从网页中提取数据。

技术空间

58 1 2

小白学大数据

8月前

数据采集前端开发 JavaScript

Python爬虫实战：抽象包含Ajax动态内容的网页数据

小白学大数据

92 0 0

小爬虫-一个网页上的.jpg图片下载下来

热门文章

最新文章

相关课程

相关电子书