SAX编程入门

发表于:2007-07-01来源:作者:点击数: 标签:
SAX编程入门 作者: 常明 写作日期:2000-4-26 SAX其实就是(Simple Application interface for XML),这个接口规范是XML分析器和XML处理器提供的较XML更底层的接口。它能提供应用以较大的灵活性。 SAX诞生是在XML-DEV讨论组上,提出它的原因是有一些情况不适用
SAX编程入门

作者: 常明 写作日期:2000-4-26



SAX其实就是(Simple Application interface for XML),这个接口规范是XML分析器和XML处理器提供的较XML更底层的接口。它能提供应用以较大的灵活性。

SAX诞生是在XML-DEV讨论组上,提出它的原因是有一些情况不适用DOM接口,而且DOM实现太大而且比较慢。

SAX是一种事件驱动的接口,它的基本原理是,由接口的用户提供符合定义的处理器,XML分析时遇到特定的事件,就去调用处理器中特定事件的处理函数。一般SAX都是JAVA的接口,但其实C++也可以用SAX接口,但C++的分析器比较少。

开发者主要关心的就是,如果我用一个SAX接口的XML分析器或处理器,我需要做些什么呢?那么,下面我们就看一下程序怎么写吧!

SAX需要用户提供一下几个处理器类的实现:

DocumentHandlerXML:文件事件的处理器;

DTDHandler:DTD中事件的处理器;

ErrorHandler:出错处理器。

写程序就是以下这么几步了:

首先需要从这几个类继承出自己的子类,
重载其中自己感兴趣的事件的处理方法。
向分析器,注册此处理器类,其实告诉分析器使用你的处理器。
启动分析器。
下面是我抓来的一个例子(既然有现成的,自己写好象比较浪费了:PP),这个例子中的PrettyPrint类就是一个继承DocumentHandler的实现类,大家可以看到PrettyPrint选择实现了开始元素、结束元素、字符数据、处理指令这样几个事件,最后的结果就是把以不同深度的缩进表示元素的层次的形式把XML输出。

值得注意的是,在处理函数的参数中包含了与此事件相关的重要信息,处理函数其实就是对这些数据的处理。比如开始元素事件的参数中就会有元素名,属性列表的信息。


void PrettyPrint::startElement(const XMLCh* const  name AttributeList& attributes)
{
indent++; // A new element started, //it should be indented one
// level further than the current level
int i;
for(i = 0; i < indent; i++) outStrm << "\t";
outStrm << "<" << name;
unsigned int len = attributes.getLength();
for (unsigned int i = 0; i < len; i++)
{  
  outStrm << " " << attributes.getName(i) <<  
  "=\"" << attributes.getValue(i) <<  
  "\"";
}
outStrm << ">";
}

void PrettyPrint::endElement(const XMLCh* const name)
{ int i; for(i = 0; i < indent; i++)
outStrm << "\t"; outStrm << "</" <<  
name << ">";
indent--;
}

void PrettyPrint::characters(const XMLCh* const chars, const unsigned int  
length)
{
for (unsigned int index = 0; index < length; index++)
{
  switch (chars[index])
  {  
   case chAmpersand : outStrm << "&"; break;
   case chOpenAngle : outStrm << "<"; break;  
   case chCloseAngle: outStrm << ">"; break;  
   case chDoubleQuote : outStrm << """; break;
   default: outStrm << chars[index];
            break;
   }
}
}

void PrettyPrint::processingInstruction(const XMLCh* const target, const  
XMLCh* const data)
{
int i; for(i = 0; i < indent; i++) outStrm << "\t";  
outStrm << "<?" << target; if (data) outStrm  
<< " " << data; outStrm << "?>\n";

}

看过这个例子,大家应该是比较清楚如何写SAX的处理器了。具体的SAX接口可以在你要用的分析器的定义中找到,JAVA中就是interface或class,C++中可能就是类的定义。写好以后就要调用Parser类的以下函数,将处理器设到parser内去:

public abstract void setDTDHandler (DTDHandler handler);
public abstract void setDocumentHandler (DocumentHandler handler);

public abstract void setErrorHandler (ErrorHandler handler);

...

此外SAX接口里有另外的几个由分析器回调的处理器,他们的用法下面一一讲一下:

InputSource:这个处理器的作用是控制XML文件的输入,这样输入就可以有更多种选择,可以来自文件系统,或Web服务器,甚至数据库

EntityResolver:解析外部实体用,分析器通过它得到外部实体。

Locator:定位器,作用是分析器用来在文件中定位的。作用之一就是报错时能得到错误的位置。

这几个的详细用法,如果需要我以后会写文章讲细一些。

DOM也是XML的数据接口,读到这里,有些读者可能会问,SAX和DOM的关系是怎样的呢? Don Park的SAXDOM实现了从SAX接口实现DOM模型,从这样一个工具我们可以看出SAX是比DOM更低层的接 口,有了SAX,我们完全可以自己构造出DOM。DOM好用一些,为什么还要提出SAX呢?DOM模型的建立是分 析完整个XML文件后才能完成,对于某些特殊情况用DOM实现就不太现实,如XML文件特别大时,在内存建立 一棵它的DOM树是不可想象的,还有当对于动态生成的XML,还没有完成时,我们就需要知道里面有什么, 这时也不能用DOM。另外SAX运行很快,对于一些简单的任务,用它效率比较高。所以DOM和SAX各有千秋, 可以在开发中互补。


原文转自:http://www.ltesting.net