备案控制台

开发者社区

开发者社区开发与运维文章正文

lxml etree xpath

2015-06-17 1056

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： from lxml import etree #####################基本用法： ##################### html = ''' 登录用户: 密码： ''' # 生成DOM dom = etree.

from lxml import etree

#####################
基本用法：

#####################

html = '''
<h1 class="header">登录</h1>
<form action="/login" method="post">
    <label for="username">用户: </label><input type="text" name="username" />
    <label for="password">密码：</label><input type="password" name="password" />
    <input type="submit" value="Submit" />
</form>'''

# 生成DOM
dom = etree.HTML(html)

# 取内容 /text()
contents = dom.xpath('//h1[@class="header"]/text()')
print(contents)

# 取属性 /@attrib
attribs = dom.xpath('//form/label[@for="username"]/@for')
print(attribs)




#####################
复杂用法：

#####################

html2 = ''' 
<div class="content"> 
    ==> 有相同字符开头的属性的标签: 
    <p id="test-1">需要的内容1</p> 
    <p id="test-2">需要的内容2</p> 
    <p id="test-default">需要的内容3</p> 
</div> 
<div class="question">
    ==> 签嵌套标签: 
    <p id="class3">美女，
　　　　　　<font color="red">你的微信号是多少？</font> 
    </p> 
</div> '''

 dom = etree.HTML(html2) 

# 取有相同字符开头的属性的标签的内容 starts-with(@attrib, "abcd") 
contents2 = dom.xpath('//p[starts-with(@id, "test")]/text()') 
print(contents2) 

# 取标签嵌套标签的所有内容 xpath('string(.)') 
contents3 = dom.xpath('//div[@class="question"]/p')[0].xpath('string(.)') 
contents3 = contents3.replace('\n', '').replace(' ', '') 
print(contents3)

文章标签：

Web App开发

JavaScript

罗兵

目录

相关文章

桃李春风一杯酒

|

2月前

|

XML 前端开发数据格式

请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。

【2月更文挑战第22天】【2月更文挑战第67篇】请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。

桃李春风一杯酒

28 2 2

布客飞龙

|

4月前

|

容器

readability-lxml 源码解析（四）：总结

readability-lxml 源码解析（四）：总结

布客飞龙

16 0 0

布客飞龙

|

4月前

readability-lxml 源码解析（一）

readability-lxml 源码解析（一）

布客飞龙

12 0 0

小白学大数据

|

21天前

|

数据采集开发者 Python

使用urllib和BeautifulSoup解析网页中的视频链接

使用urllib和BeautifulSoup解析网页中的视频链接

小白学大数据

8 0 0

游客vchhg2ptkd6kw

Beautiful Soup的简单使用

游客vchhg2ptkd6kw

70 0 0

虫无涯

|

数据处理网络安全 Python

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

虫无涯

195 0 0

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

吾非同

|

XML 数据采集 JavaScript

HTML解析之BeautifulSoup

HTML解析之BeautifulSoup

吾非同

133 0 0

二哈侠

|

Python

Beautiful Soup库的介绍

本节中将介绍如何使用 Beautiful Soup 来解析 HTML 以获取我们想要的信息。

二哈侠

78 0 0

码农技术君

使用lxml.html.clean.Cleaner清洗html

使用lxml.html.clean.Cleaner清洗html

码农技术君

148 0 0

cxhuan

|

XML 数据采集 SQL

第64天：XPath 和 lxml

第64天：XPath 和 lxml

cxhuan

121 0 0

热门文章

最新文章

《CMOS集成电路后端设计与实战》——3.3　标准单元设计流程

无人驾驶背后的技术 - PostGIS点云(pointcloud)应用

反垃圾邮件技术已转移到云计算中

MYSQL数据库主从复制(一)

Keepalived+MySQL主从切换演示【书里讲解】

数据库总结20160728

c++11新特性(4) lambda捕捉块

0225Snapshot Too Old Error ora-01555.txt

What are TCHAR, WCHAR, LPSTR, LPWSTR, LPCTSTR (etc.)?

【大模型】讨论 LLM 在更广泛的通用人工智能（AGI）领域中的作用

【大模型】在实际应用中大规模部署 LLM 会带来哪些挑战？

【大模型】小样本学习的概念及其在微调 LLM 中的应用

【大模型】LLM 如何处理域外或无意义的提示？

【大模型】在使用大语言模型的过程中，我们需要考虑到哪些道德问题？

【大模型】大语言模型存在的一些限制

【大模型】描述一些评估 LLM 性能的技术

【大模型】如何使用提示工程来改善 LLM 输出？

【大模型】大语言模型训练数据中的偏差概念及其可能的影响？

【大模型】在大语言模型的架构中，Transformer有何作用？

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

将Stable Diffusion模型文件转存到FC环境的NAS