标记系统允许以一致和循序渐进的方式对语料进行由浅层到深层的信息标注。
四、语料的标注和对齐
语料库标注工作取决于语料库将以何种方式使用。我们希望部分语料库资源能够直接用于改善机器译文的质量,也希望能够从语料库中学习到汉语到英语的翻译知识,例如汉英双语词典、翻译模式等。为此,目前我们正在进行或计划对语料库进行下列标注工作:
1) 中文分词和词性标注;
2) 英文词性标注;
3) 中文和英文的专名标注(中文机构名识别已作了小规模的实验);
4) 中文、英文文本句子一级的对齐;
5) 中文专名和英文专名的对齐;
6) 中文词语的详细语法特征标注。这项标注将根据《现代汉语语法信息词典规格说明书》[俞 1996]进行。在现代汉语语法信息词典中,每类词都可能拥有多达几十个的语法特征信息,但在具体的上下文环境中,并非每个语法特征都有所表现,我们希望这项标注将有助于学习词汇翻译知识。目前对这项标注已经进行了一些小规模的实验。
上述标注工作基本按照下面的过程进行:1)首先利用软件工具进行自动标注;2) 人工校对标注结果。目前已有约10万字的中文语料进行了分词和词性标注,对应的译文进行了词性标注,这部分语料的标注信息均已经过人工校对。另外,这部分语料句子对齐的校对工作也正在进行之中。
五、进一步的研究工作
在对10万字语料的分词和词性标注、对齐的校对工作完成后,我们正在扩大处理语料的规模,对其余90万字语料进行词性标注和对齐加工。
在已有的标注信息基础上,我们还将考虑对语料库进行更深层次的标注工作,包括标注句子的句法结构和篇章的结构信息等。目前这方面的工作正在积极探索之中。
在应用方面,目前我们正在开发一个简单的基于存储的汉英机器翻译引擎,并在两个加工级别上使用具有不同标记深度的双语语料。第一个级别是将没有进行切词、词性标注的句子对齐结果直接作为资源用于机器翻译,翻译引擎根据用户输入的待译句子在对齐的句对中进行检索操作,如果命中,则直接输出译文;第二个级别是利用对齐的句对以及经过分词和词性标注的语料(其中一些特殊的词语如数字、专有名词等也经过对齐处理),翻译引擎将这样的句对视为一种框架结构,当用户输入待译句子后,翻译引擎利用输入句子和这些框架结构进行匹配,如果匹配成功,则对其中的可以替换的词汇进行替换,并修改相应英语译文得到输入句子的译文,从而提高英语译文的自然度。
参考文献
[Brown 1990] Brown, P., et al, A statistical approach to machine translation, Computational linguistics, V16, No.2, 1990
[CES] Corpus Encoding Standard, http://www.cs.vassar.edu/CES/
[Gale 1993] Gale W., et al, A program for aligning sentence in bilingual corpora, Computational linguistics, V19, No.1, 1993
[Klavans 1990] Klavans, J., and Tzoukermann, E., The BICORD system, In Proceedings, 15th International Conference on Computational Linguistics.
[刘1995] 刘昕,周明,黄昌宁,基于长度算法的中英双语文本对齐的试验,陈力为等主编《计算语言学进展与应用》,清华大学出版社,1995
[Nagao 1984] Nagao, M., A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, In: A.Elithorn et al eds. Artificial and Human Intelligence, NATO Publication
[TEI] TEI Guidelines for Electronic Text Encoding and Interchange, http://etext.virginia.edu
[俞1996] 俞士汶 ,朱学锋等,《现代汉语语法信息词典》规格说明书,《中文信息学报》,1996年第2期
Bilingual Corpus Construction and its Management
for Chinese-English Machine Translation
Chang-Baobao Zhan-Weidong† Zhang-Huarui
The Institute of Computational Linguistics, Peking University, 100871
†The Department of Chinese Language and Literature, Peking University, 100871
Abstract: In recent years, monolingual or multilingual (primarily bilingual) corpora are viewed as key resources in language information processing and language engineering projects. To support an ongoing Chinese-English machine translation project, a Chinese English bilingual corpus is being set up. This paper gives a brief discussion on construction of the corpus.
Keywords: Bilingual Corpus, Machine Translation, Corpus Markup, Corpus Annotation
面向汉英机器翻译的双语语料库的建设及其管理
常宝宝 詹卫东† 张华瑞
北京大学计算语言学研究所,北京,100871
†北京大学中文系,北京,100871
摘要: 近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。
延伸阅读
文章来源于领测软件测试网 https://www.ltesting.net/