将Html文档整理为规范XML文档

简介:

有多种方式可以在.NET 平台进行HTML文件解析、数据提取,其中最简单、稳妥的办法是先使用工具将Html文档整理成XML文档,再通过XML Dom模型或XPath灵活地进行数据处理。SGML便是一个Html文档整理工具类库:

Microsoft的XML大师Chris Lovett专门开发了一个SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至将它们转换成一个格式规范的结构。 SgmlReader派生于XmlReader,这就是说,你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文 件。 

这是一段示例代码:

public static XmlDocument ConvertHtmlToXml(string html)    

    

   using (SgmlReader sgmlReader = new SgmlReader()) {    

       sgmlReader.DocType = "HTML";    

       sgmlReader.InputStream = new StringReader(html);    

       using (StringWriter stringWriter = new StringWriter()){    

           using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))    

           {    

               while (!sgmlReader.EOF) {    

                   xmlWriter.WriteNode(sgmlReader, true);    

               }    

           }    

       }    

   }    

  

   XmlDocument xmlDoc = new XmlDocument();    

   xmlDoc.LoadXml(stringWriter.ToString());    

  

   return xmlDoc;    

 

主页:http://code.msdn.microsoft.com/SgmlReader  

 

语言:英文  授权形式:开源

 

相关网址:


http://msdn.microsoft.com/en-us/library/aa302299.aspx

 

下载页(SourceForge)  SgmlReader 1.8   MSDN代码库

分类:  ASP.NET
本文转自左正博客园博客,原文链接:http://www.cnblogs.com/soundcode/p/3805124.html ,如需转载请自行联系原作者
相关文章
|
1月前
|
XML 前端开发 数据格式
请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
【2月更文挑战第22天】【2月更文挑战第67篇】请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
|
1月前
HTML文档基础标签(2)
HTML文档基础标签(2)
|
3月前
|
XML 移动开发 数据格式
html5为什么只需要写<!doctype html>? 有多少种Doctype文档类型?
html5为什么只需要写<!doctype html>? 有多少种Doctype文档类型?
28 0
|
10天前
|
XML 存储 JavaScript
html和xml
【4月更文挑战第10天】html和xml
10 1
|
1天前
|
移动开发 开发者 HTML5
html文档
【4月更文挑战第19天】html文档
9 1
|
11天前
|
XML JavaScript 前端开发
XML文档节点导航与选择指南
XPath是XSLT的核心部分,用于XML文档的节点定位和选择。它采用路径表达式语法,包含200多个内置函数处理各种数据类型。XPath在编程语言如JavaScript中广泛使用,与XSLT配合进行XML转换和样式处理。它涉及7种节点类型,如元素、属性和文本,以及多种节点间关系,如父、子、同级等。XPath还使用轴(如ancestor、child)来描述节点间的关联,并支持运算符进行逻辑和数学操作。
23 0
XML文档节点导航与选择指南
|
1月前
|
数据采集 移动开发 前端开发
springboot使用html模版导出pdf文档
springboot使用html模版导出pdf文档
|
1月前
|
移动开发 HTML5
HTML5编辑规范
HTML5编辑规范。
49 1
|
1月前
|
移动开发 SEO HTML5
HTML文档基础标签(1)
HTML文档基础标签(1)
|
1月前
|
移动开发 HTML5
HTML5文档头部相关标记
【2月更文挑战第9天】HTML5文档头部相关标记。
13 1