三、语料库的编码
管理这些平行语料的理想方式是设计一个专用管理系统。语料库中所有语料均需按照同样的方式编码或标记。这可以使得语料库能够独立于软件平台和具体的应用程序,具有教强的数据可交换性。目前国际上有两个著名的语料库标记标准建议方案,一个是正处在开发之中的语料库编码标准(CES),另外一个是文本编码标准TEI。TEI已为一些著名语料库所采用,例如英国国家语料库(BNC)。这两个标准都是基于SGML标记语言而制定的。考虑到我们的语料的主要来源是国际互联网,大部分语料是以超文本标记语言(HTML)形式存在的。因此,如何对语料库进行编码存在三种选择:(1)采用国际上业已制定的标准方案;(2)直接采用互联网上广泛使用的超文本标记语言(HTML),这样似乎可以有效减少工作量;(3)制定一个新的标记方案。
方案(2)尽管可以减少工作量,但并不可行。首先,超文本标记语言是目前世界上最为流行的网页标记语言,不同的支持公司都对其作了不同的扩充,语法要求并不严格,常常可以用不同的标记形式来标记不同的内容,因而不适合用来标记我们的语料库。其次,超文本标记语言不做内容和显示的区分,其中既包含用于内容的标记元素,也包含用于显示的标记元素。因而很多情况下,网页作者因为显示效果而放弃使用内容标记元素。例如在我们收集的语料中,文本标题很少使用
、 等标记。
再看方案(1),尽管CES和TEI是专为标记语料库而设计的国际标准方案,但二者均面向通用目的,即使选择一个由较少的必要元素组成的子集,也会因过于复杂而难以掌握。并且其中许多元素对于我们的应用意义不大,同时对一些我们需要详细标记的信息,如新闻报道的特有结构,却又没有合适的标记可以使用(即有“大炮打蚊子”之嫌)。另外,作为二者基础的SGML标记语言,也一直因为过于复杂而难以得到信息处理界(包括IT产业界)的广泛使用,开发一个全面的SGML分析器也不是一个短时期内可以完成的工作。
经过上述分析,为了获得一个简单的但能满足我们需要的编码方案,我们选择了方案(3),即参照CES开发一个新的标记系统。这个标记体系不力求覆盖所有文档类型,但要求对于我们所关心的文档类型有足够的支持,对其他文档类型仅仅要求有一般性支持。这个标记体系基于目前正日益流行的标记语言XML,从而保证我们的标记系统有广泛的软件支持。
再看方案(1),尽管CES和TEI是专为标记语料库而设计的国际标准方案,但二者均面向通用目的,即使选择一个由较少的必要元素组成的子集,也会因过于复杂而难以掌握。并且其中许多元素对于我们的应用意义不大,同时对一些我们需要详细标记的信息,如新闻报道的特有结构,却又没有合适的标记可以使用(即有“大炮打蚊子”之嫌)。另外,作为二者基础的SGML标记语言,也一直因为过于复杂而难以得到信息处理界(包括IT产业界)的广泛使用,开发一个全面的SGML分析器也不是一个短时期内可以完成的工作。
经过上述分析,为了获得一个简单的但能满足我们需要的编码方案,我们选择了方案(3),即参照CES开发一个新的标记系统。这个标记体系不力求覆盖所有文档类型,但要求对于我们所关心的文档类型有足够的支持,对其他文档类型仅仅要求有一般性支持。这个标记体系基于目前正日益流行的标记语言XML,从而保证我们的标记系统有广泛的软件支持。