您现在的位置是: 软件 > 开发者网络 > 技术跟踪 > XML与.NET专栏 > 正文


-Win xp中的多种网络
-试验试验试验试验
-用Freehand实现位图矢量化
-网络电话面面观

基于SAX的XML文档解析器分析
2001-02-24· ·胡朝晖··yesky

1 2 3 4 5  下一页


  1.引言:

  XML (eXtensible Markup Language)语言是SGML语言的子集,它保留了SGML主要的使用功能,同时大大缩减了SGML的复杂性。XML语言系统建立的目的就是使它不仅能够表示文档的内容,而且可以表示文档的结构,这样在同时能够被人类理解的同时,也能够被机器所理解。微软提供了两种进行XML文档解析的接口,一种是基于文档对象模型(DOM)的,另外一种就是SAX(Simple API for XML)。如果你安装了IE5.0以上版本的话,你的系统中实际上就存在了这两种XML语法解析器。可以从微软站点(www.microsoft.com)下载最新的MSXML的SDK和Parser文件。它是一个叫做MSXML.DLL的动态链接库,最新版本为msxml3,实际上它是一个COM对象库,里面封装了所有进行XML解析所需要的所有必要的对象。因为COM是一种以二进制格式出现的和语言无关的可重用对象。所以你可以用任何语言(比如VB,VC,DELPHI,C++ Builder甚至是剧本语言等等)对它进行调用,在你的应用中实现对XML文档的解析。下面的关于XML文档对象模型的介绍是基于微软最新的msxml3为基础进行的。

  2.SAX介绍

  SAX(Simple API For XML)是一个公共的基于事件的XML文档解析标准,这里我们简单介绍一下MSXML是如何通过COM接口实现SAX功能的。首先需要注意的使SAX是一个接口集合,它允许开发人员在自己的应用中通过这个接口集合来读取和分析XML文档中的数据。SAX2是当前微软最新的API。

  SAX最初是为Java编程语言设计的,并使用了Java的接口定义,因为Java语言接口并不是语言中立的,所以各个厂商就需要建立自己的工具把SAX接口映射到它们自己的特殊的语言上去。微软的SAX2给VB和VC提供了接口,当然它们都有自己的接口集合映射到各自的语言和类型定义上去(比如ISAXContentHandler是VC的接口,而IVBSAXContentHandler是VB的接口)。 能够通过一个简单的,快速的方法来对XML文档进行处理,并且和DOM相比的话,它所占用的系统资源更少。我们知道,当你通过DOM来操作一个XML文件的时候,DOM读取该文件,然后把它分割成单个的对象(比如元素,属性和注释等等),然后在内存中创建一个关于该文档的树结构。使用DOM的好处是你可以引用和操作每一个对象。但是为一个文档创建一个树结构,尤其当文档尺寸很大的时候,需要大量的内存空间。

  和DOM不同的是,SAX2是基于事件的,这意味着当它在一个XML文档中发现特殊的符号的时候,它会产生相关的事件。SAX2的优点是当它读到XML文档中每一部分内容的时候,就会产生一个事件,我们的应用程序就可以在这个事件中写入具体的处理代码,然后解析器就移动到文档的下一段。因为SAX2以序列的形式处理文档,它和DOM相比,对内存的需求很少。而且当SAX2找到需要的信息的时候,它能够停止对当前文档的解析。因为SAX不需要在内存中建立整个文档的树结构,SAX和DOM相比,可以被认为是一个轻量级的接口集合。

  我们可以从另一个角度来理解SAX和DOM的区别,如果把它们认为是数据库的游标的话,SAX就类似是只读(read-only)和前向(forward-only)游标,而DOM更象是一个静态(static)的游标允许对记录进行遍历和更新。在开发数据库的时候,我们都知道这两种游标都有自己的适用范围而且都是非常有用的,所以SAX和DOM的作用也可以类似的进行这样的理解。SAX对XML进行处理的流程图如下所示:



  2.1 SAX2和DOM相比的优点

  当需要处理大的文件的时候,SAX对内存的需求很小,因为它并不会因为XML文档尺寸的增加而增加对内存的需求。SAX允许你在任何时候终止解析,这样的一个好处是如果实际上你只需要对文档的一部分信息进行处理的时候,你可以在得到该部分信息以后,就终止对文档的解析。同时,当你想要提取文档中一小部分内容的时候(对许多基于XML的应用来说,实际上没有必要读完整个XML文档),比如,你想要通过扫描数据找到文档中关于某一个特定股票的相关信息的时候,就不需要把不必要的数据放到内存里面,用SAX,你的应用能够扫描数据发现和该股票相关的信息,然后创建一个仅和该部分相关的一个文档结构,这样不仅节省了系统资源,还节省了处理时间。另外,当你想要创建一个新的文档结构时,在一些情况下,你可能想要使用SAX来创建一个高层对象的数据结构,比如股票代码和价格信息,然后和其他的XML文档的数据进行结合,而不是建立一个有关低层的元素、属性、处理指令相关的DOM结构的时候,你可以通过使用SAX更加有效的建立文档结构。特别当系统资源有限的时候,对大规模的文档来说,SAX提供了一个更加有效的方法来解析XML文档。因为SAX可以只处理文档中某一部分的信息,而DOM实际上是根据整个文档建立树状结构并放到内存中,所以如果XML文件很大的话,DOM模型对内存的需要量就很大。

  2.2 SAX的缺陷

  SAX模型也存在一些缺陷,因为整个文档并没有放到内存中,所以它不能随机的到达文档的某一部分,同时也因为整个文档不在内存中,开发人员必须在处理过程中按顺序处理信息,所以SAX在处理包含很多内部交叉引用的文档时就会有一些困难。不能实现复杂的搜索,同时你在处理文档部分信息的时候,必须自己考虑清楚是否保存相关的上下文信息。而且在当前的IE浏览器中还不支持SAX的实现。同时需要注意的是,DOM是已经被W3C承认的标准,而SAX还仅仅是微软自己建立的一个规范。

1 2 3 4 5  下一页

■ 相关内容
 成功软件开发者的9种编程习惯
 实战Delphi数据网格色彩特效
 一步一步学习COM
感谢 访问天极网,如果您觉得该文章涉及版权问题,请看这里!