《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一3.6.1 使用SAX解析器

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 本节书摘来华章计算机《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一书中的第3章 ,第3.6.1节,[美] 凯S.霍斯特曼(Cay S. Horstmann) 著陈昊鹏 译 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.6.1 使用SAX解析器

SAX解析器在解析XML输入数据的各个组成部分时会报告事件,但不会以任何方式存储文档,而是由事件处理器建立相应的数据结构。实际上,DOM解析器是在SAX解析器的基础上构建的,它在接收到解析器事件时构建DOM树。
在使用SAX解析器时,需要一个处理器来为各种解析器事件定义事件动作。ContentHandler接口定义了若干个在解析文档时解析器会调用的回调方法。下面是最重要的几个:

  • startElement和endElement在每当遇到起始或终止标签时调用。
  • characters在每当遇到字符数据时调用。
  • startDocument和endDocument分别在文档开始和结束时各调用一次。

例如,在解析以下片段时:
image

解析器会产生以下回调:
1)startElement,元素名:font
2)startElement,元素名:name
3)characters,内容:Helvetica
4)endElement,元素名:name
5)startElement,元素名:size,属性:units="pt"
6)characters,内容:36
7)endElement,元素名:size
8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时我们想要让它们执行的动作。本节最后的程序会打印出一个HTML文件中的所有链接image。它直接覆盖了处理器的startElement方法,以检查名字为a,且属性名为href的链接,其潜在用途包括用于实现“网络爬虫”,即一个沿着链接到达越来越多网页的程序。

注意:遗憾的是,HTML不必是合法的XML,大多数HTML页面都与良构的XML差别很大,以至于示例程序无法解析它们。但是,W3C编写的大部分页面都是用XHTML编写的,XHTML是一种HTML方言,且是良构的XML,你可以用这些页面来测试示例程序。例如,运行:
AI 代码解读

image

将看到那个页面上所有链接的URL列表。
示例程序是一个很好的使用SAX的例子。我们根本不在乎a元素出现的上下文环境,而且不必存储树形结构。
下面是如何得到SAX解析器的代码:
image

现在可以处理文档了:
image

这里的source可以是一个文件、一个URL字符串或者是一个输入流。handler属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
image

示例程序定义了一个处理器,它覆盖了ContentHandler接口的startElement方法,以观察带有href属性的a元素。
image

startElement方法有3个描述元素名的参数,其中qname参数以pref?ix:localname的形式报告限定名。如果命名空间处理特性已经打开,那么namespaceURI和lname参数提供的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:
image

在这个程序中,我们还处理了另一个常见的问题。XHTML文件总是以一个包含对DTD引用的标签开头,解析器会加载这个DTD。可以理解的是,W3C肯定不乐意对诸如www.w3.org/TR/xhtml/DTD/xhtml-strict.dtd这样的文件提供千万亿次的下载。总有一天他们会完全拒绝提供这些文件,但到写本章时为止,他们还在并不情愿地提供DTD下载。如果你不需要验证文件,只需调用:
image

程序清单3-8包含了网络爬虫程序的代码。在本章的后续部分,将会看到SAX的另一个有趣用法,即将非XML数据源转换成XML的一种简单方式是报告XML解析器将要报告的SAX事件。详情请参见3.8节。
程序清单3-8 sax/SAXTest.java
image
image

image
image
image

目录
打赏
0
0
0
0
1408
分享
相关文章
|
15天前
|
重学Java基础篇—Java类加载顺序深度解析
本文全面解析Java类的生命周期与加载顺序,涵盖从加载到卸载的七个阶段,并深入探讨初始化阶段的执行规则。通过单类、继承体系的实例分析,明确静态与实例初始化的顺序。同时,列举六种触发初始化的场景及特殊场景处理(如接口初始化)。提供类加载完整流程图与记忆口诀,助于理解复杂初始化逻辑。此外,针对空指针异常等问题提出排查方案,并给出最佳实践建议,帮助开发者优化程序设计、定位BUG及理解框架机制。最后扩展讲解类加载器层次与双亲委派机制,为深入研究奠定基础。
38 0
重学Java基础篇—ThreadLocal深度解析与最佳实践
ThreadLocal 是一种实现线程隔离的机制,为每个线程创建独立变量副本,适用于数据库连接管理、用户会话信息存储等场景。
50 5
重学Java基础篇—类的生命周期深度解析
本文全面解析了Java类的生命周期,涵盖加载、验证、准备、解析、初始化、使用及卸载七个关键阶段。通过分阶段执行机制详解(如加载阶段的触发条件与技术实现),结合方法调用机制、内存回收保护等使用阶段特性,以及卸载条件和特殊场景处理,帮助开发者深入理解JVM运作原理。同时,文章探讨了性能优化建议、典型异常处理及新一代JVM特性(如元空间与模块化系统)。总结中强调安全优先、延迟加载与动态扩展的设计思想,并提供开发建议与进阶方向,助力解决性能调优、内存泄漏排查及框架设计等问题。
33 5
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
43 3
|
15天前
|
重学Java基础篇—Java Object类常用方法深度解析
Java中,Object类作为所有类的超类,提供了多个核心方法以支持对象的基本行为。其中,`toString()`用于对象的字符串表示,重写时应包含关键信息;`equals()`与`hashCode()`需成对重写,确保对象等价判断的一致性;`getClass()`用于运行时类型识别;`clone()`实现对象复制,需区分浅拷贝与深拷贝;`wait()/notify()`支持线程协作。此外,`finalize()`已过时,建议使用更安全的资源管理方式。合理运用这些方法,并遵循最佳实践,可提升代码质量与健壮性。
24 1
|
29天前
|
Java代码结构解析:类、方法、主函数(1分钟解剖室)
### Java代码结构简介 掌握Java代码结构如同拥有程序世界的建筑蓝图,类、方法和主函数构成“黄金三角”。类是独立的容器,承载成员变量和方法;方法实现特定功能,参数控制输入环境;主函数是程序入口。常见错误包括类名与文件名不匹配、忘记static修饰符和花括号未闭合。通过实战案例学习电商系统、游戏角色控制和物联网设备监控,理解类的作用、方法类型和主函数任务,避免典型错误,逐步提升编程能力。 **脑图速记法**:类如太空站,方法即舱段;main是发射台,static不能换;文件名对仗,括号要成双;参数是坐标,void不返航。
50 5
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
37 4
Java中Log级别和解析
日志级别定义了日志信息的重要程度,从低到高依次为:TRACE(详细调试)、DEBUG(开发调试)、INFO(一般信息)、WARN(潜在问题)、ERROR(错误信息)和FATAL(严重错误)。开发人员可根据需要设置不同的日志级别,以控制日志输出量,避免影响性能或干扰问题排查。日志框架如Log4j 2由Logger、Appender和Layout组成,通过配置文件指定日志级别、输出目标和格式。
Java二维数组的使用技巧与实例解析
本文详细介绍了Java中二维数组的使用方法
73 15
【潜意识Java】深度解析黑马项目《苍穹外卖》与蓝桥杯算法的结合问题
本文探讨了如何将算法学习与实际项目相结合,以提升编程竞赛中的解题能力。通过《苍穹外卖》项目,介绍了订单配送路径规划(基于动态规划解决旅行商问题)和商品推荐系统(基于贪心算法)。这些实例不仅展示了算法在实际业务中的应用,还帮助读者更好地准备蓝桥杯等编程竞赛。结合具体代码实现和解析,文章详细说明了如何运用算法优化项目功能,提高解决问题的能力。
98 6

热门文章

最新文章

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等