机器翻译译文质量评价的实践与分析
 
发布时间:2008-08-05 来源:翻译中国 发布者:上海翻译公司


机器翻译译文质量评价的实践与分析



俞士汶 姜 新 朱学锋



【摘要】机器翻译评价对机器翻译的发展与运用有重要的影响。北京大学计算语言学研究所开发了一个机器翻译译文质量自动评估系统MTE,并应用MTE对若干个英汉机译系统的译文进行了实际的评测。在评测实践的基础上,本文对当前机译译文质量的一些典型情况进行了分析,同时对MTE的测试集与测试点进行了详细的评介。最后, 提出了机器翻译评价的若干新课题。



关键词:机器翻译、译文质量、测试点、题库



一. 引言

有机器翻译(Machine Translation,以下简称MT),就有对机器翻译的评价。MT固然是一项很困难的研究课题,而对MT的评价也不是一件容易的事。ALPAC报告[1]曾是一个最有影响的报告,尽管它在六十年代中期以后的一段时间内消极地影响了机器翻译研究的进展,但它的若干见解对后来的机器翻译评价研究仍有启示作用。当然,与ALPAC观点相悖的论著[2]同样有参考价值。

自80年代初以来,MT研究在世界范围内重新形成热潮。对MT评价的研究在深度与广度两方面也都有了新的进展[3,4,5,6,18]。译文质量评价在MT评价的诸多方面中占据中心地位。 由于要进行译文质量评价至少要懂得两种语言,译文质量评价是一项难度很大的智力活动,因此对机器翻译译文质量的评价通常都是由专家进行的。[11]讨论了专家鉴定方式的长处与局限性。

北京大学计算语言学研究所在中国七五期间(1986-1990) 开发了一个机器翻译译文质量自动评估软件(Machine Translation Evaluation,以下简称MTE)。关于MTE的原理、设计及实现技术,笔者已写过几篇文章[8,9,10,11,12]进行了介绍, 本文不再赘述。 笔者已使用MTE对若干个英汉机器翻译系统的译文进行了评测,本文着重对实践经验进行分析、整理,期望从中得到一些有利于改进MT以及机译译文质量评估的启示。

为了对机器翻译系统的译文质量进行客观的定量的规范化的测试,建立一个源语言的测试例句集的重要性近年来已有了比较多的讨论[6,13,14]。不过构造这样的测试集却是一项复杂的很费时间的工作。MTE建立了一个由精选的英语句子组成的测试集, 为了实现自动测试并确立了适合于英汉机器翻译的测试点清单。本文就是在MTE的测试集与测试点的基础上对实际的机译系统的译文的质量进行分析,同时也对MTE的测试集与测试点本身的得失作更为深入的评价。



二. 机译译文质量典型情况分析

MTE有一个由3300个英语句子组成的测试集(以下简称“题库”)。凡自愿接受MTE测试的MT系统皆可从北大计算语言学研究所拷贝到这个题库。然后只要提交与题库中句子一一对应的3300句译文,MTE就可依照孤立测试点的原理对这3300句译文的质量给出一个综合的评价。如果需要,也可以按大、中、小类的划分给出译文在每类测试点上的得分。有了这些资料,评价者和开发者对该系统译文的质量都做到了心中有数。

MTE先后已对若干个系统近10套译文进行了评测。所得结果符合实际情况,这样又在实践中检验了MTE的合理性。

根据这些实际经验,笔者对当前英汉机译系统译文的质量及MTE的机制作了一些分析。为了便于比较,笔者从已测试过的各套译文中选出3套(分别记为T1, T2, T3)作为分析的对象。

限于篇幅,本节仅对3个小类测试点的情况较详细地进行分析。

情况1. 词的多义性是机器翻译的难点之一。MTE将多义性检查确定为一个中类(编号为33)的测试点,在此中类之下又分成6个小类,即一个名词、动词、形容词、副词、介词各有两种意义,都作为小类的测试点(编号分别为331, 332, 333, 334, 335),一个动词兼有3种不同含义的测试又单独列为一个小类(编号为339)。因此, 这里的多义词限制为同一词性下的不同义项,至于一个英语词(如train)兼属名词与动词,意义也不同,对于这种情况,MTE另立测试点。

仔细考察331小类的测试方法与测试结果。MTE为了测试英语名词spring的两个不同意思(春天,弹簧),出了以下两个句子:

例1. Spring is the first season in a year.

例2. It is a spring bed.

如果MT系统能将例1中的spring译成“春天”,例2中的译成“弹簧”,MTE则认为该MT系统解决了多义词spring的多义选择问题,可以给分,否则就不给MT系统增加分数。MT要翻译28个这样的名词,一共有56个句子。对这28个词,3套译文的得分情况如下:


T1
T2
T3

译对的数目
19
22
24

百分数
68
78
85


尽管3套译文的成绩有高低之分,但可以相信,在现有理论与技术的指导与支持下,MT系统解决这类问题可以取得80分左右的好成绩。

MTE的出题是经过仔细斟酌的。考虑到当前MT系统的分析基本上还是限制在一个句子的范围内,更大范围的上下文信息难以获取也难以利用。因此MTE出的题目使MT系统利用一个句子内的信息就可以确定多义词的正确选择。 如在例1中,spring与season同现,在例2中,spring修饰bed,从而为MT提供了线索。如果MTE出了下面的句子

I like the spring .

那就不合适了。

有的MT系统为对付这种多义词选择问题,采用了在括号中给出另一个译词的方法,如

例3. They invested much capital in the enterprise .

译文: 他们对企业投入了许多资本(首都)。

如果由人进行后编辑,采取这种策略未尝不可,但遗憾的是,MTE只能认为这样的译文不能得分。

情况2. MTE将英语主从复合句作为第6大类测试点,并选择宾语从句、定语从句、主语从句、同位语从句、表语从句、状语从句作为6个中类测试点,编号分别为60, 61, 62, 63, 64, 65。宾语从句这个中类又细分为10个小类,下面列出各个小类的代码,句子数及划分的依据。



小类代码 句子数 划分的依据

600 20 由that引导的宾语从句,that可以省略

601 16 在双宾语句子中,由that引导的直接宾语从句

602 13 由疑问代词what引导的宾语从句

603 14 由疑问副词where引导的宾语从句

604 12 由疑问代词who引导的宾语从句

605 12 由疑问代词whom引导的宾语从句

606 13 由疑问副词when引导的宾语从句

607 13 由疑问副词how引导的宾语从句

608 14 由连词whether或if引导的宾语从句

609 12 由疑问副词why引导的宾语从句

从道理上讲应该根据各小类宾语从句在实际语料中出现的频度决定选取句子的多少。这是MTE想做而未能做到的事。目前只是凭借英语专家的认识。例如,由that引导的宾语从句最普遍,因此,选取的句子数也最多。

下面给出T1, T2, T3在607小类(即由how引导的宾语从句)测试点、13个句子上的得分情况。


T1
T2
T3

译对了的句子数
10
2
7

百分数
78
15
54


下面以其中一句为例,解释3套译文为什么会有如此不同的得分。

例4. I taught her how she should drive a car .

T1: 我教她她应该如何驱动汽车。

T2: 我如何教她她应该驾驶一辆汽车。

T3: 我教她怎样她应该驾驶一辆汽车。

显然3套译文的机器味儿都很浓。在T1中,全句的语法关系是分析清楚了的, how引导从句,兼作从句中谓语动词的状语,译文也是这样安排的,因此MTE认为T1可以得满分。T2将how分析成主句中谓语动词的状语,语法关系弄错了,MTE不能给分。T3将how的对译词“怎样”放在从句的句首,MTE认为T2的语法关系分析对了,但译文的词序与汉语习惯不符,因此MTE算它半对。由此得到启示,要提高译文的质量,仅重视英语分析是不够的,也要重视汉语生成。

情况3. 机器翻译系统处理“花园路径句子”的能力。看下面两个例句:

例5. Are the students playing football ?

例6. Are the students playing football your classmates ?

例5比较简单,现在分词playing与助动词are构成句子的谓语。例6就是花园路径句子 (garden

path sentence),它在例5的最后一个词之后加上your classmates,整个句子的结构全改变了,分词短语playing football成了student的后置定语。译成汉语时,相应的“踢足球的”应调整到“学生”之前。MTE将此语言现象也作为一个小类的测试点(编号为720),共出了8个句子,即测试4个动词。下面是3套译文的得分情况

T1 T2 T3

正确句子数 4 8 8

这些数据指出,T1只将与例5相似的4个句子译对了,却没有处理象例6那样的花园路径句子的能力。就这个测试点而言,T2与T3优于T1。

从以上分析,可以了解到,MTE不仅实现了测试的自动化,体现了规范化,而且准确地指出,一个MT系统的译文在哪些测试点上是成功的,对哪些测试点的处理能力还比较差,从而为改进MT系统的译文质量指出了明确的方向。



三. MTE的测试点详解

从第2节的分析可以认识到,了解MTE测试点的详情对提高机译译文质量是大有裨益的。

先前发表的论文[9, 10, 11, 12]只概要地列出测试点清单(大类与中类),本节将更详细地介绍MTE的测试点。



3.1 词汇量的测试与部分题库的自动生成

词汇量的测试是MTE的第1大类测试点。从技术角度看,词汇量已不是MT系统需要着意解决的问题,但用户了解MT系统是否包括了常用的及自己希望有的词汇仍然是有必要的。 MTE将词汇的测试分为普通词汇与专业词汇两部分。目前测试的专业词汇是计算机方面的,这部分可以用其它专业的词汇进行替换。MTE把单词放在句子中进行测试。为了测试常用词 book出了下面的句子。

例7. The boy is reading a book .

在此句中,book译成“书”就行了,不必考虑book的其它用法及意义。为了测试数以千计的单词,如果也要出相同数目的句子,那就显得太笨拙了。MTE实现了部分题库自动生成的功能。现在简述其实现技术。在MTE中配置了一部英汉词典[9],将m个与book同义类的单词(如story,newspaper,novel,magazine等)集合成一组,赋以一个类号c。 题库自动生成程序AG可以从原文句子及对应的测试文件[9, 10]查到该句中哪个单词是测试的目标,在英汉词典中就可以查出该单词的类号c及该类词的个数m,AG产生一个1与m之间的随机数r(正整数),按照这个随机数r可以从c类中将第r个单词挑出来(假定为story),并用这个单词替换句子中的单词,从而得到一个新的句子

The boy is reading a story .

当然,测试文件也随之作了相应的修改。 采用这个办法,可用少量的句子测试大量的词汇,提高了MTE开发题库的效率。





3.2 固定词组的测试

固定词组是MTE的第2大类测试点。由若干单词串成的固定词组,MT系统处理起来并不困难。如果固定词组中间插入了其它的单词甚至词组,不同的MT系统则可能表现出不同的处理能力。如

例8. They will depend more on their parents .

例9. I have look all round for the missing book .

MTE将这些语言现象都列入了测试点清单。



3.3 词法测试

词法是MTE的第3大类测试点。它包括词的兼类问题与词形变化问题。词的兼类问题又可细分为一个词兼名词与动词,兼名词与形容词,兼动词与形容词,兼形容词与副词,兼副词与介词,也有同一个词兼名词、动词、形容词等3类词的情况。词形变化问题则要细微地考察名词复数的不同形态,不规则动词的过去式与过去分词以及形容词、副词的比较级最高级等等。

对于MT来说,在汉语译文的数词与名词之间加上一个恰当的量词并不是一件容易的事。MTE将汉语量词的正确选用作为测试点的一个中类,正反映了机译译文质量评价的特色。同样,未定义词(如人名,地名)的处理能力也是MTE选定的一个中类的测试点。



3.4 句法测试

这是MTE测试的重点所在,共选择了6个大类的测试点。开发MTE题库时, 当然要考虑尽可能地覆盖英汉翻译中的各种语言现象,不过更有价值的是考虑了MT的特点,试举以下几例。

(1) 调序问题

英语句子中某些类型的定语(如不定式短语,介词短语,定语从句等)放在被修饰的名词之后,译成汉语要颠倒过来。英语句子的状语(如副词,介词短语等) 常放在全句的最后,译成汉语却要置于谓语动词之前。其它更细微的,如同位结构中,英语是普通名词在前,专有名词在后,汉语刚好相反。又如时间短语、数量结构乃至数量词的内部词序也必须调整。

(2) 否定副词“不”与“没”的正确选用

例10. They do not see anybody .

例11. I have not seen you before .

这两句中,英语使用同一个否定词not,例10的汉译应该用“不”,例11则要用“没”。

(3) 省略成分的补足

例12. He studies physics and I chemistry .

汉语译文应该是“他学物理而我学化学”。后一个“学”字是必须补上的。MTE出了9个这样的句子,只有第2套译文T2处理得好,对了8个,T1与T3都没做对。



3.5 语义测试

第2节介绍的多义词就是测试语义的,介词短语的多义在MTE中也作为句法中的一个中类的测试点。又如,

例13. flying planes is dangerous .

例14. flying planes are dangerous .

例13中的flying planes是述宾结构,flying应译成“驾驶”; 例14中的flying planes是定中结构,flying应译成“正在飞的”。T1, T2, T3将这两句英语都译成相同的汉语,可见这3个MT系统都还没有根据句子中谓语动词的形态(is或are)正确处理这种同形异构多义的能力。

例15. It has stopped raining .

例16. Let’s stop to rest .

虽然这两句中的stop都是“停止”的意思,但全句的意思却大相径庭。MTE也要测试MT的译文能否反映它们之间的差别。

由此可见,MTE虽然未将语义测试单独列为测试点,但在词法、句法的测试中也融合了语义的测试。当然,语义测试的内容十分丰富,MTE的语义测试尚有待强化。



四. 机器翻译评价的研究课题

恰当地评价MT可以正确估计MT的发展水平,可以为以下3方面的人提供重要的决策依据:

(1) MT的最终用户考虑的是如何选择适合自己需要的系统,(2) MT的研究者考虑的是如何确立新的MT系统的理论模型及技术路线,(3) 实用型MT系统的开发者最关心的是如何估计模型系统的发展潜力以及它能否满足特定用户的需要。由于MT系统的运用除了受机器生成的译文的质量这一因素制约外,还受到系统运行的环境、用户自身素质等诸多因素的影响,主观评价与应用效果之间往往会有不小的差距。如果考虑到翻译工作是语言文字信息处理全过程 (检索、识别、输入、前编辑、翻译、后编辑、输出、排版、印刷、远程通讯等)中的一个环节,那么更合理的评判准则应该是统一的生产率观点,即MT是否提高了全过程的效益。因此,需要评价的内容以及参加评价的人员都是多方面的[7]。在日本,就分别为用户、开发者以及译文质量分别制定了评价标准[15,16,17]。专门从事MT评价的研究者所能完成的只是其中一部分工作。笔者认为,MT评价的专门研究以译文质量作为主要关心的对象比较适宜。

MTE为机译译文质量的自动评测奠定了一个很好的基础, 但需要进一步研究与开发的课题还很多,当前考虑到的有以下几个方面。

1. 扩充测试集的规模。目前MTE的题库只有3300句, 无法排除MT系统开发者只用这个测试集对系统进行训练的可能性。计划将这个测试集扩充到1万句左右,并且全面覆盖英汉翻译的各种语言现象,这样就可以做到测试集全部公开。实际评测时,不一定每次都要MT系统将一万句全部翻译出来,可以随机(按类)挑选其中的1/4到1/3进行测试。由于不同系统会有不同的适用领域,通用的测试集和测试点应该集中在任何一个有实际价值的MT系统都必须解决的那些问题上。换句话说,如果用这个通用的测试集去测试某个机译系统,该系统的成绩很差,却自称它对某某领域是适用的,人们就很难相信这种说法的可靠性。

2. 调整与扩充测试点,使测试点的分布更加全面,更加合理。不仅给大类的得分赋以权重,在中类、小类之间也可以考虑加权。或者根据测试点在实际语料中的出现频度决定其在测试集中的出现频度。

3. 改进MTE系统的界面与算法,使MTE更加好用,评测速度更快,结果显示更加一目了然。特别有意义的是实现联机测试,将MT输出的结果直接送入MTE进行测试,这样可以实现多个MT系统的现场评测。

4. 开展标准化研究,建立可以实际实施的机器翻译译文质量评测标准。

5. 开展新的评价方法的研究,如对整个句子的翻译质量的评价以及对基于上下文理解的篇章翻译的质量的评价。

6. 扩充语言对。虽然MTE的原理与设计是独立于具体的语言对的, 但测试集却是需要针对不同的语言对分别进行开发的。近期的目标是开发日汉机器翻译和汉英机器翻译的测试集。



五. 后记

正在进行的此项研究得到中国国家自然科学基金的支持(项目号为69373043)。七五期间黑龙江大学的侯方教授为MTE的开发作出了重要贡献。笔者向关心与支持MTE的各位专家学者致以诚挚的谢意。尤其要感谢1993年参加《机器翻译评价》国家自然科学基金项目的评审的专家,尽管笔者不知道他们的姓名。







参考文献

[1]
Language and Machines: Computer in Translation and Linguistics. National Academy of Sciences, National Research Council, Washinton D.C., 1966

[2]
B.Henisz-Dostert, R.R.MacDonald and M. Zarechnak, Machine Translation, Mouton, 1979

[3]
长尾真, 国际翻译技术フォ-ラム报告, 《电子工业月报》, 第31卷 第6号, PP35~41, 1989(日文)

[4]
长尾真, 机械翻译文の质の评价と言语の制限, 《情报处理》, 26(10), PP1197~1202, 1985(日文)

[5]
牧野武则, 评价技术, Bit, 1988年9月号(别册), 《机械翻译》, PP128~134(日文)

[6]
Margaret King & Kirsten Falkedal, Using Test Suites in Evaluation of MT Systems, Coling’90, 2-211~2-116

[7]
俞士汶, 《机器翻译评价》专题讨论提纲, 《机器翻译研究进展》, PP564~566, 1992, 中国电子工业出版社

[8]
俞士汶等, 机译译文质量自动评价原理, 多语种机器翻译国际研讨会论文集MMT’91, PP57~58

[9]
俞士汶等, 机译译文质量测试描述语言TDL,《知识工程进展》,1991, PP116~126

[10]
俞士汶等, 机器翻译译文质量自动评估系统, 中国中文信息学会1991年会论文集, PP314~319

[11]
俞士汶等, 基于测试集与测试点的机译系统评估, 《机器翻译研究进展》, PP524~537, 1992, 中国电子工业出版社

[12]
Yu Shiwen, Automatic Evaluation of Qutput Quility for Machine Translation Systems, Machine Translation8: 117~126, 1993, Kluwer Academic Publishers. Printed in the Netherlands.

[13]
Margaret King et al. Evaluation of MT Systems, Panel Discussion, MT SUMMITⅢ, PP141~146, 1991

[14]
野村浩乡等, 机械翻译の评价基准について, 日本情报处理学会研究报告, 92-NL-89-9(日文)

[15]
高山泰博等, JEIDA机械翻译システム评价基准(利用者编), 日本情报处理学会研究报告, 93-NL-96-9, 1993(日文)

[16]
中岩浩巳等, JEIDA机械翻译システム评价基准(开发者编), 日本情报处理学会研究报告, 93-NL-96-10, 1993(日文)

[17]
井佐原均等, JEIDA机械翻译システム评价基准(品质评价编), 日本情报处理学会研究报告, 93-NL-96-11, 1993(日文)

[18]
DOUG ARNOLD, et al. Special Issue on Evaluation of Machine Translation, Machine Translation, Volume8, Nos. 1~2, 1993








本文发表在中文电脑国际会议ICCC ’94(新加坡)论文集,PP26~32