面向汉英机器翻译的双语语料库的建设及其管理

发布: 2008-10-22 10:57 | 作者: 不详 | 来源: 测试时代采编 | 查看: 137次 | 进入软件测试论坛讨论

关键字：双语语料语料库的设计和语料收集

一、引言
近年来，在语言信息处理的研究和开发中，单语和多语语料库（以双语语料库居多）的作用日益突显出来。特别是在机器翻译研究中，人们提出了多种基于双语语料库的新方法，例如采用所谓的基于实例（Example-Based）的或基于存储（Translation Memory）的机器翻译方法，可以直接使用经过对齐的双语语料改善机器译文的质量。此外，也可以通过统计模型从双语语料库中获取双语词典和翻译模式，从而改进传统的机器翻译方法。除中文信息方面的应用之外，双语语料库的建设对于双语词典编纂、跨语言的对比研究也具有重要价值。
目前关于双语或多语语料库的研究大致可分为三类：一是研究双语语料的对齐技术（Alignment），国内外学者就此提出多种策略和方法，现在已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993]；二是研究双语语料的各种应用，如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984]，双语词典编纂[Klavans and Tzoukermann 1990]技术中，双语语料库都发挥着十分重要的作用；三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准，两者均基于SGML标记语言。就前两类研究来说，中国国内目前做了较多的跟踪研究工作，而对于第三类研究，即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究，探索工作似乎做的相对较少。与此相关，目前谕舛蓟姑挥屑接泄叵低车摹⒕疃燃庸さ摹⒁院河镂从镅缘乃镉锪峡獾谋ǖ馈?lt;/DIV>
北京大学计算语言学研究所、清华大学智能技术国家重点实验室和中国科学院计算所三家单位联合承担了国家973课题——“面向新闻领域的汉英机器翻译系统”的研制开发任务。系统决定采用基于多种方法的多引擎体系结构（将基于规则的方法与基于语料库的方法相结合）。为此，需要建立一个具有一定规模的经过对齐处理的汉英双语语料库。本文将简要介绍这样一个服务于汉英机器翻译的双语语料库的设计、收集、编码和加工的情况。

二、语料库的设计和语料收集