领测软件测试网
z\$ty"?Q(Wn6rl
D9uf fb,H,e[bo 软件测试技术网 p E@'c
k 语料库建设是一项工作量极大的工作,因为一个有实际应用价值的语料库决不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细的设计,只有这样才能保证所投入的工作是值得的。我们认为,设计一个双语语料库,首先应该考虑语料库的应用目标。语料的收集、语料的构成以及对语料的加工应该紧紧围绕语料库的应用目标进行。作为服务于一个面向新闻领域的汉英机器翻译系统的双语语料库而言,在语料的收集、加工等方面,应该跟服务于其他目的(比如语言研究)的语料库有所区别。服务于汉英机器翻译的语料库是一个专用的语料库,而不是一个通用的语料库。在这个前提下,我们不强调语料库中的语料对汉语文本的覆盖性。在对语料的内容、语料库中的文本类型、文本的创作时间、语料库的结构进行选择时,应以是否有助于面向新闻领域的汉英机器翻译为准则进行。最为理想的情况是,语料库中的语料能够形成全部新闻语料的一个统计样本。然而构造一个这样的语料库并非易事,这需要有足够的机器可读的新闻语料作为取样基础。结合上述理论思考以及现实条件下的电子文本的实际情况,我们确定了下面的语料收集原则:
$C0O:j"l0R7o8C#o4t1s+M1) 收入语料库的文本最好是报道类型,不过也可以包含一些具有良好英语译文的同新闻报道在内容和结构上具有相似性的语言材料。因此除了新闻报道类型,我们也收集了一些新闻发布会文告、政府白皮书和一些杂文以及它们的英语译文。
EdA3e7b``2) 双语材料最好以汉语作为源语言,因为语料库的服务对象是汉英机器翻译系统,但也酌情收集了一些具有非常流畅自然的中文翻译的英语材料。
软件测试技术网$[3G1jj(F{V3) 文本应以全文形式收入语料库,这将有益于篇章知识的获取和学习,一个实用的机器翻译系统最终必须面对全文的翻译。
软件测试技术网 N)e/e7V`Fas~&Q)g4) 就创作时间而言,所有收入的文本应当是最近几年的文本,这样才能够反映当下语言的实际使用情况。
(N'a6Gex4d/P"yk 软件测试技术网NT$K*yx'_在上述原则的指导下,我们收集了大约100万字的汉语全文语料及其英语译文。这些语料基本来源于国际互联网。大致可分为四类:新闻报道、新闻发布会文稿、白皮书以及杂文。其构成比例如图1所示:
P!Y