Artificial Intelligence and Robotics Rearch 人工智能与机器人研究, 2021, 10(2), 206-213
Published Online May 2021 in Hans. www.hanspub/journal/airr
雷锋纪念日
doi/10.12677/airr.2021.102020
机器翻译字幕质量评估研究
——以“ArcTime”字幕汉译为例
吴双姣
浙江越秀外国语学院,浙江绍兴
收稿日期:2021年4月30日;录用日期:2021年5月21日;发布日期:2021年5月31日
摘要
AI时代迅猛发展的翻译技术对文本内容的翻译产生了重大影响。然而作为翻译技术中最新的发展之一,机器翻译技术(MT)更常应用于文本翻译之中,而在视听翻译中的应用仍处于初期。本文选取电影《疯狂动物城》机器翻译英译中字幕文本为研究文本,结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法,评估了ArcTime自动生成的英译中字幕文本。以探索机器翻译字幕质量评估以及制约机器翻译质量的影响因素,总结机器翻译质量以及未来机器翻译发展侧重点。本次机器翻译字幕质量评估研究表明,机器翻译(MT)在功能对等(functional equivalence)方面,尤其是语义选择与字幕切分等方面错误较多,从而导致机器翻译整体上质量偏低。此外,扣分仅次于语义错误的是接受程度(acceptability)方面,相对而言,机器翻译字幕在阅读体验(readability)方面整体上出现的错误相对较少。机器翻译字幕整体质量偏低的原因在于,一方面在于机器翻译无法获取源语言所处的视觉语境,另一方面是影视作品语言整体上口语体居多,而机器翻译其训练语料主要源于书面语,因此以上因素很大程度上制约了机器翻译字幕的质量。
关键词
机器翻译,字幕翻译,FAR模型,质量评估
Asssing Machine Translation Quality
in Interlingual Subtitling
—A Ca Study of ArcTime
Shuangjiao Wu
Zhejiang Yuexiu University, Shaoxing Zhejiang
Received: Apr. 30th, 2021; accepted: May 21st, 2021; published: May 31st, 2021
吴双姣
Abstract
Since AI enabled translation technology provides basic and overall support for subtitle transla-tion, it’s crucial to enhance subtitle translation technology rearch. However, machine transla-tion (MT), as one of the most innovative technologies to be deployed in the field of translation, is currently more often ud in (non-AV) text translation than in Audiovisual Translation (AVT), where its application is rare. In this article, the author intends to asss the machine translation quality produced by ArcTime in translating the American movie entitled Zootopia, and the prob-lems that would have an impact on the quality of the machine translation. For this purpo, the data was collected from the movie and qualitatively analyzed using Pedern’s (2017) FAR model, which is a quality asssment model. The results of the study showed that most subtitles are of a relatively good quality in terms of readability, and the less errors or problems were found in terms of acceptability. However, most of the errors are found in terms of functional equivalence, particularly in terms of mantic errors. In addition, the major problems that impact the machine translation of subtitles are lack of visual context, in which the source text is embedded and to which the MT has no access, and the generally informal language ud in the audiovisual works.
Keywords
Machine Translation (MT), Subtitling, The FAR Model, Quality Asssment
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licend under the Creative Commons Attribution International Licen (CC BY 4.0). creativecommons/licens/by/4.0/
1. 引言
新时代,中国以更加开放的姿态融入全球化进程,在《关于加快发展对外文化贸易的意见》等一系列国家政策的推动下,影视作品作为中国文化的载体,“走出去”的步伐显著加快。字幕翻译成为对世界“讲好中国故事”和让世界“听清中国声音”的重要途径。随着影视文化传播国际化进程的加速,影视翻译成为新兴的高附加值领域[1]。
《2018年中国语言服务行业发展报告》指出在2016年语言服务类型中字幕和配音业务占比仅为5.9%,在2018年增至29%。然而,有限的译者产能无法满足海量的影视翻译的需求[1]。
AI 时代迅猛发展的翻译技术对文本内容的翻译产生了重大影响。翻译技术从计算机辅助翻译(computer-aided translation, CAT)到机器翻译(machine translation, MT)在一定程度上提高了译者翻译的效率[2]。在技术翻译中,翻译记忆系统(TMs)和综合术语支持在保证语言一致性和简化翻译过程方
面已经不可或缺。然而机器翻译技术(MT)作为翻译技术中最新的发展之一,更常应用于文本翻译之中,而在视听翻译中的应用仍处于初期[3]。
本文聚焦机器翻译英译汉电影字幕文本,结合彼得森提出的FAR 模型采用量化统计与质性分析相结合的方法,探索机器翻译质量评估以及制约机器翻译质量的影响因素,总结机器翻译质量以及未来机器翻译发展侧重点,并提出针对性的建议。
2. 机器翻译字幕在国外的发展现状
20世纪90年代,随着互联网与电脑日益普及,计算机辅助翻译(CAT)工具便应运而生,而CAT 工
Open Access
吴双姣
具的发明正是翻译行业中迎来的首次重大技术变革。翻译记忆库(translation memory, TM)是CAT工具的核心,翻译记忆库存储翻译人员的翻译文本与原始文本,以供再次出现类似的表达时进行重新编排使用,极大提高了翻译效率[2]。
机器翻译是第二次技术变革,在非限定领域机器翻译中,效果最佳的方式为统计机器翻译(statistical
machine translation, SMT)。其通过分析大量的平行语料,构建统计翻译模型,进而使用此模型进行翻译。
而谷歌翻译与微软必应翻译是其中发展较为完备的两个平台[2]。
在数据驱动的统计机器翻译占主流的时代,较多学者探讨机器翻译在字幕翻译中的应用,如[3] [4]
[5] [6] [7] [8],其中SUMAT (subtitling for Machine Translation)项目[6]为了探索MT在字幕中的运用,
九个公司与机构合作开展了一项名为“Subtitling for Machine Translation (SUMAT)”的项目。该为期三年的项目由欧盟资助,由四家字幕公司和五家技术共同合作完成,旨在为九种语言的字幕机器翻译(基于七个双向语言对)构建基于云的服务,随后研究人员通过一年的时间来评估此类MT的产出。经过字幕人员的评估,56.79%的字幕质量等级为5与6,说明它们基本达到可以使用的程度,仅需后续少量的编辑工作。同时借助MT,字幕员的平均效率也提高了39.90%。实验还发现在处理语法不规范的字幕时,机器翻译的效果不佳。通过不同语种的对比分析,研究发现机器翻译的质量与语言种类也有一定的相关性[2]。
2019年胡克等人同样以慕课为素材,对MT字幕进行了受众接受调查,发现相比原版MT字幕,编辑后的MT字幕受众接受度更高。同时人工翻译字幕的优势不明显,甚至有些评分不及MT字幕[8]。由此看来,机器翻译在字幕领域的应用研究在国外得以较为充分的讨论。
3. 机器翻译字幕在国内的现状
相比国外,中国机器字幕翻译的学术研究却有所不足。截止2021年4月,以“机器翻译”与“字幕”
为主题词进行检索,知网返回文献数量为25篇(如图1所示)。其中王华树和李莹[1]对字幕翻译技术的研究现状进行了梳理,分析其存在的主要问题,提出未来的发展趋势,从而促进接国家文化传播。余邡棋
头孢的副作用[9]通过选取博芬在线视频翻译与配音平台和网易见外作为实验平台,通过对比人工字幕文本与平台机器
翻译输出,对机器翻译字幕进行了定性与定量分析,总结出机器翻译字幕处理和质检时,需要注意“屏幕符号信息”和“实词语义”两个方面的问题。
Figure 1. Search results from CNKI
图1. 知网检索结果
因此本研究聚焦机器翻译英译汉电影字幕文本,结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法,探索评估机器翻译质量,并寻找制约机器翻译质量的影响因素,进而总结未来机器翻
办公室英语译发展侧重点,并提出针对性的建议,以期为视频翻译平台的发展提供一定的参考。
吴双姣4. 研究方法春游李叔同
本研究选取电影《疯狂动物城》的字幕为研究文本,该电影于2016年上映,豆瓣评分9.2分。电影讲述在这个全由动物构成的大都会里,一位兔子警官朱迪需要和一只叫尼克的狐狸通力合作,揭开颠覆动物世界的巨大危机。选取该电影的原因在于该影片所面向儿童与成年人的动画片,因此该影片语言难度适中,不会对机器翻译造成额外的负担。本研究结合彼德森[10]提出的FAR质量评估模型,对《疯狂动物城》英文字幕汉译文本进行质量评估分析。
(一) FAR模型
彼得森[10]提出了评估语际字幕质量的模型——“FAR模型”(“The FAR Model”)。该模型一共评估三个
维度的得分:其一是功能对等(functional equivalence),即源语信息或意义在译文字幕中的呈现程度;其二是接受程度(acceptability),即字幕对目的语语言规范的遵守程度;其三是阅读体验(readability),即观众对字幕的理解费力程度。
彼得森提出的“FAR模型”与“NER模型”有一定的相似之处,后者由西班牙学者罗梅罗–弗雷斯科(Pablo Romero-Fresco)等人提出用于评估语内实时字幕。两者均以错误分析为基础,即研究人员统计分析字幕中出现的错误,扣除相应的分数,从而计算字幕的最终得分[2]。
该模型的功能对等具体划分为两种错误类型:语义错误(mantic error)与语境错误(stylistic error);接受程度包括语法错误(grammar error)、拼写错误(spelling error)、惯用语错误(idiomaticity error);阅读体验细分为三个标准:切分与同步(gmentation and spotting)、标点与字体(punctuation and graphics)、阅读速度与字幕字数(reading speed and line length) (Pederson, “The FAR Model”) [2]。该模型评价维度的分类尽可能确保评价的客观性,且尽量使其不受评价人员对机器翻译字幕的主观偏见,同时在一定程度上真实地反应机器翻译字幕与人工参考字幕的质量。
由于“FAR模型”中的重要评判标准是观众在观看视频中产生的“字幕假象”(contract of illusion),即把字幕当作是视频中真实发生的对话,因此语义错误对于字幕质量的影响最大,相应扣分最多,分为2分、1分、0.5分三个等级。其他类型的错误根据严重程度分为1分、0.5分、0.25分,与“NER模型”相
同。由于画面与阅读速度的限制,字幕通常会出现语义的浓缩,因此在“FAR模型”中基本单位为一条字幕[2]。
彼德森为验证其提出的质量评价模型,选取了10部英文电影的16个版本的瑞典字幕进行分析,并对以上版本的字幕与官方字幕组字幕进行对比。彼得森的研究结果表明该模版可以根据不同语言地区的字幕标准进行相应的调整,且该模型的扣分制使其评价尽可能确保客观性。但是由于该系统是扣分制,因此也导致该模型无法筛选出质量优异的译文。牛奶麦片粥
(二) 机器翻译字幕错误分析精神奖励
1、功能对等
FAR模型中的语义错误评分标准根据错误程度,从轻微错误、中等错误以及严重错误分别扣除0.5分、1分以及2分,因为语际字幕翻译中语义错误影响观众对字幕内容的理解,甚至造成观众对内容的误解。根据本研究所选取电影的字幕进行分析,出现115处语义错误,扣分总计110.5分。其中严重的语义错误出现20处(如表1所示),例如“But over time, we evolved, and moved beyond or primitive savage ways.”,电影台词的意思是“将这原始野蛮的生活方式抛在身后,现在食肉和食草动物和谐共处。”但是机器翻译将其翻译为“……并原始野蛮的方式前进。”该机器翻译译文则并未将原文意义传递,影响观众对情节的理解。再如“Cau I'm a fox, and like you said in your dumb little stage play, u
s predators ud to eat prey.”机器翻译将“us predators”翻译为“美国的食肉动物”,而电影情节所表达的内容为“……以前食肉动物吃食草动物”。平板为什么充不进去电
吴双姣
Table 1. Serious mantic errors in MT
表1. 机器字幕翻译严重语义错误
English ST Chine subtitle Functional equivalence …and moved beyond or primitive savage ways. 并以原始野蛮的方式前进。 2
…us predators ud to eat prey. 美国的食肉动物过去吃猎物。 2
Arriving, Zootopia Express.到达,Zootopia表达。 2 …an ungloved trunk is a class 3 health code violation. 未戴手套的后备箱违反了3类健康法规。 2
…with a warning if you were to glove tho trunks如果你要戴上这双短裤,我就警告你 2
…and our bunny sinks into emotional and literal squa-
螳螂捕蝉黄雀在后的意思lor
我们的兔子陷入了情感和文字上的肮脏 2 …you may contest recitation in traffic court. 你可以在交通法庭上反对背诵。 2
Abandoning your post. Inciting a scurry.放弃你的文章。煽动匆匆。 2 -5 years jail time. -Well, it's my word against yours.——5年监禁。——我的话对你的话。 2
…like you once. 喜欢你一次。 2 Chuck, how are things looking on the jam cams? 恰克,果酱摄像头上的情况怎么样? 2
And welcome to the Grand Pangolin Arms.欢迎来到大穿山甲臂膀。 2
… …
中等的语义错误并不严重影响观众对字幕的理解,但是中等语义错误存在对重要信息的缺失。本研究所选取的影片机器翻译字幕中共出现中等语义错误41处(如表2所示)。例如:“And predators had biological urge to maim, and maul, ”影片情节所表达的意思为“而食肉动物无法遏制的本能让他们捕猎、残杀,还有流血……”,而机器翻译处理缺失部分信息“无法遏制的本能”,但是整体而言不影响观众对影片情节的理解。
Table 2. Standard mantic errors in MT
表2. 机器字幕翻译中等语义错误
English ST Chine subtitle Functional equiva-
lence
biological urge to maim, and maul, 致残,撕咬,还有 (1)
…how your mom and me got to be so darn happy? 你妈妈和我就这么开心吗? 1 Oh, yes. That's right, Stu. We ttled hard.哦,是的。没错,斯图。我们解决困难。 1 Don't tell me what I know, Travis. 别告诉我我知道什么,崔维斯。 1 -It was real great! -Yeah? Everything you ever hoped? ——真的很棒!——是吗?你所希望的一切? 1 Splendid. Clawhaur will give you the complete ca file. 灿烂的。克劳豪瑟会把全部案件卷宗给你。 1
No, he attacked. 不,他的攻击。 1 But I was small and emotionally unbalanced 但我当时个子矮小,情绪不稳定 1
And two? 和两个吗? 1
-Run. -Run. ——运行。——运行。 1
… …
轻微的语义错误主要体现在用词不当,但不影响观众对影片情节的理解。本文所选取的影片中,出现轻微语义错误53处(如表3所示)。例如“…Where our ancestors first joined together in peace.”,此处,