备案控制台

开发者社区

开发者社区开发与运维文章正文

python抓取网页数据的三种方法

2017-11-12 9362

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

一、正则表达式提取网页内容

解析效率：正则表达式>lxml>beautifulsoup

代码：

import re

import urllib2

urllist = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

html = urllib2.urlopen(urllist).read()

num = re.findall('<td class="w2p_fw">(.*?)</td>',html)

print num

print "num[1]: ",num[1]

二、BeautifulSoup方法提取网页内容

代码如下：

from bs4 import BeautifulSoup

import urllib2

urllist = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

html = urllib2.urlopen(urllist).read()

#把html格式进行确定和纠正

soup = BeautifulSoup(html,'html.parser')

#找出tr标签中id属性为places_area__row的内容，如果把find改成findall函数则会把匹配所#有的内容显示出来，find函数只匹配第一次匹配的内容。

tr = soup.find('tr',attrs={'id':'places_area__row'})

td = tr.find('td',attrs={'class':'w2p_fw'})

#取出标签内容

area = td.text

print "area: ",area

三、lxml

lxml库功能和使用类似BeautifulSoup库，不过lxml解析速度比beautifulsoup快。

代码：

import lxml.html

import urllib2

urllist = 'http://example.webscraping.com/places/default/vie

w/United-Kingdom-239'

html = urllib2.urlopen(urllist).read()

tree = lxml.html.fromstring(html)

td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]

area = td.text_content()

print area

本文转自老鹰a 51CTO博客，原文链接:http://blog.51cto.com/laoyinga/1939999

文章标签：

Python

关键词：

Python数据

Python方法

Python网页

Python抓取

Python网页数据

科技小能手

目录

相关文章

4as3qn2go3ure

|

1天前

|

存储机器学习/深度学习数据可视化

Python面板时间序列数据预测：格兰杰因果关系检验Granger causality test药品销售实例与可视化

Python面板时间序列数据预测：格兰杰因果关系检验Granger causality test药品销售实例与可视化

4as3qn2go3ure

35 6 6

1941623231718325

|

1天前

|

机器学习/深度学习数据采集供应链

从数据到决策：scikit-learn在业务分析中的应用

【4月更文挑战第17天】本文探讨了scikit-learn在业务分析中的应用，包括数据预处理、分类、回归和聚类模型的构建，以及模型评估与优化。通过使用scikit-learn，企业能有效处理数据、预测趋势、客户细分并制定决策，从而提升经营效率和市场策略。随着机器学习的发展，scikit-learn在业务分析领域的潜力将持续释放，创造更多价值。

1941623231718325

7 1 1

4as3qn2go3ure

|

1天前

|

算法数据可视化 Python

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

4as3qn2go3ure

9 0 0

皮牙子抓饭

|

2天前

|

BI 开发者数据格式

Python代码填充数据到word模板中

【4月更文挑战第16天】

皮牙子抓饭

16 0 0

4as3qn2go3ure

|

2天前

|

数据可视化算法 API

Python数据可视化-seaborn Iris鸢尾花数据

Python数据可视化-seaborn Iris鸢尾花数据

4as3qn2go3ure

9 0 0

微芒不朽

|

2天前

|

Python

python面型对象编程进阶（继承、多态、私有化、异常捕获、类属性和类方法）（上）

python面型对象编程进阶（继承、多态、私有化、异常捕获、类属性和类方法）（上）

微芒不朽

23 0 0

Safenetworkaccess

|

2天前

|

程序员索引 Python

06-python数据容器-set（集合）入门基础操作

06-python数据容器-set（集合）入门基础操作

Safenetworkaccess

18 0 0

1941623231718325

|

8天前

|

安全 Java 数据处理

Python网络编程基础（Socket编程）多线程/多进程服务器编程

【4月更文挑战第11天】在网络编程中，随着客户端数量的增加，服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求，我们通常需要采用多线程或多进程的方式。在本章中，我们将探讨多线程/多进程服务器编程的概念，并通过一个多线程服务器的示例来演示其实现。

1941623231718325

29 0 0

1941623231718325

|

8天前

|

程序员开发者 Python

Python网络编程基础（Socket编程）错误处理和异常处理的最佳实践

【4月更文挑战第11天】在网络编程中，错误处理和异常管理不仅是为了程序的健壮性，也是为了提供清晰的用户反馈以及优雅的故障恢复。在前面的章节中，我们讨论了如何使用`try-except`语句来处理网络错误。现在，我们将深入探讨错误处理和异常处理的最佳实践。

1941623231718325

22 2 2

叫个什么名字

|

11天前

|

缓存监控 Python

解密Python中的装饰器：优雅而强大的编程利器

Python中的装饰器是一种强大而又优雅的编程工具，它能够在不改变原有代码结构的情况下，为函数或类添加新的功能和行为。本文将深入解析Python装饰器的原理、用法和实际应用，帮助读者更好地理解和利用这一技术，提升代码的可维护性和可扩展性。

叫个什么名字

27 4 4

热门文章

最新文章

【Python 基础教程 02】数据类型全解析：从基础到高级，实用指南及详细使用案例

【Python 基础教程 01 全面介绍】 Python编程基础全攻略：一文掌握Python语法精髓，从C/C++ 角度学习Python的差异

使用Python实现DBSCAN聚类算法

在Python Web开发过程中：数据库与缓存，MySQL和NoSQL数据库的主要差异是什么？

Redis与Python的完美结合：实现高效数据交互和应用场景全解析

【Python 基础教程 23】Python3 错误与异常处理全面指南：从入门到精通的实用教程

Python读取.nc文件的方法与技术详解

Pandas基本操作：Series和DataFrame（Python）

【Python 基础教程运算符06】Python3运算符超详细解析：全面入门教程，初学者必读

【Python 基础教程 05】超详细解析Python3注释：全面入门教程，初学者必读,了解Python如何进行注释

Python中的装饰器：概念、用法和实例

Python中的装饰器：概念、用法及实例

使用Python实现图像处理中的边缘检测算法

Python中如何实现字符串反转？请提供至少两种方法。

请简述Python中的继承、封装和多态的概念。

在Python中，如何创建一个迭代器？

请解释Python中的迭代器和生成器的区别？并分别举例说明。

在Python中，如何使用装饰器重写类的方法？

Python中的装饰器是什么？请举例说明其用法。

Python中的装饰器：概念、用法及实例

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

使用Python完成RDS数据开发及分析

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

下一篇

阿里云oss简介和使用流程