欧盟多语平行语料库的发掘和分析

更新时间:2023-06-26 13:13:51 阅读: 评论:0

收稿日期:2020-04-12
基金项目:2018年度教育部人文社会科学研究青年基金项目“普通话二语塞擦音感知的实验研究”(18YJC740112)作者简介:吴菲(1981-),女,江苏南京人,副教授,博士,
主要从事第二语言习得和音系学研究。
欧盟多语平行语料库的发掘和分析
吴 菲
(上海外国语大学英语学院,上海200083)
失去记忆
摘要:自建不同类型的语库耗时耗力,多涉及汉语和某一欧洲语言,涉及的语种也不超过十种,平行语库更是寥寥。搜集、整理、比对近年来欧洲委员会发布的涉及20种以上语言的语库,分析其统一格式和翻译对齐后的特性、异同、比较方法和使用条件等,为广大语言和翻译研究者更为迅速有效地进行多语、跨语语料收集和统计分析提供参考。
关键词:平行语库;多语;翻译记忆;翻译单元(TU)
中图分类号:H7  文献标识码:A  文章编号:1671-5365(2021)02-0080-09DOI:10.19504/j.cnki.issn1671-5365.2021.02.010
  近年来,欧盟发布了一系列大型多语(22~26种语言)平行语言资源,可以在联合研究中心①(JointResearchCenter,简称JRC)的网页上免费获取,包括
全文本语库JRC-Acquis②[1]2142-2147、DGT③-Ac quis
、DCEP④[
2],翻译记忆(translationmemory,简称TM)DGT-TM[3]454-459、ECDC⑤-TM、EAC⑥
-TM,以及文档集与多层归类软件JEX⑦[4]。
JRC是欧洲委员会(EuropeanCommission,简称EC)的一个内部科学机构,其职责之一是作为支持技术(语言技术)为所有正式的EU语言(目前有24种⑧)进行媒体监管、开发文本、采掘应用。JRC通过使用EU的平行文本集建立了多语资源,这也是JRC储备和使用句对齐平行语库的初始动机。
一、 资源优势
尽管存在更多种语言的个体平行语库,如
《圣经》[5]《人权宣言》,或GeorgeOrwell的小说《1984》[6],但并没有其他更大的平行语库涉及20种以上的语言。一般大型语库涉及的语言都有大量的本族语者,如英语、法语、西班牙语和汉语,记录了完备的语言和这些语言的语对。除这几种高度发达的语言之外,某些语种的平行资源十分稀缺,如立陶宛语、拉脱维亚语、爱沙尼亚语、匈牙利语、马耳他语和捷克语。即便研究者找到了这些语言比对英语的平行语库,也很难找到使用语对的平行语库(如爱沙尼亚语-马耳他语或拉脱维亚语-希腊语)。因而,我们认为,EU语库的最大贡献在于平衡了以英语为中心的语库研究领域。Koehn等[7]65-72则进一步认为,仅基于EU文本建立的机器翻译(MachineTranslation,简称MT)系统已经能够产出较有说服力的研究成果。
此外,涉及各个领域的EU语库还囊括了一些高度专业词汇,如TARIC⑧包括“多语产品清单”及其类型细分,可在报关时使用;文档可根据EuroVoc词典进行手动分类:EuroVoc涉及了欧洲机构紧密关注的6000多门类的内容,允许研究者据主题域编码检索每一类文档,即萃取每一领域的专业词汇。
二、 平行语库的使用方法和特点
经过研究和整理,将这七个EU语库的特征归纳于表1。
表1 七个EU语库的特征比对
JRC-AcquisDGT-AcquisDCEPDGT-TMECDC-TMEAC-TMJEX数据首发时间2006年5月2012年12月2014年2007年11月2012年10月2013年1月2012年5月更新时间2009年2月--2013年4月---
未来是否会
更新
否是是是(每年)否-否
收集文档时课题来源
间(含更新)
1958-20092004-20112001-2012-2012年至今2008-20121952-2011
对齐单位句对齐全文段落对齐
全文
全文
TM
(句子,TU)
TM
(句子,TU)
TM
(句子,TU)
全文
对齐语对所有所有所有所有(以英
语为中心
语)
所有(以英
语为中心
语)
所有(以英
语为中心
语)
所有
对齐方式Vanilla+
手撕白菜HunAlign
内部系统
(DGT+
Prompsit)
手动(仅为
文档层)
内部系统
(DGT)
手动(TM)手动(TM)
手动(仅为
文档层)
格式
TEI⑩
小儿疫苗接种口诀(XML) 瑏瑡
Muset 瑏瑢、
Formex-4
(XML)、
TIFF 瑏瑣、纯文本
SGML 瑏瑤,
XML和纯文
TMX 瑏瑥
(XML)
TMX(XML)TMX(XML)
JEX压缩格
式(纯文本)
文字组UTF-8UTF-8UTF-8UTF-16(小
端存储格式)
UTF-8UTF-8UTF-8
语言2223232322+IS+NO22+HR+IS+
NB/NO+TR
22
宜宾学院学报 2021年2期(第21卷)
续表
JRC-AcquisDGT-AcquisDCEPDGT-TMECDC-TMEAC-TMJEX数据语对数量231253253253300325231
源语
不同
(大多是英语)
不同
(大多是英语)
不同
(大多是英语)
不同
(大多是英语)
英语英语
不同
(大多是英语)
英语词数5550万9800万1.03亿8520万2.9万4.5万5900万总词数10亿不知13.7亿10亿32万54万不知
磁盘空间(压缩)3.7GB
3.81GB(4
个文件包)
6GB3.4GB3.7MB3.5MB1.6GB
主题域广泛广泛广泛广泛
健康相关话
题(炭疽、霍
乱等),ECDC
的组织和行动
(工作机会、
流行病情报和
商品房预售合同监督)
教育、培训、
文化、青年、
行政
广泛
文本类型法律和行政,
宣言和决议,
协议、草案和
共同纲领
所有OJ 瑏瑦系列
媒体发布、
技术公开、
会议记录、
议会委员会报
告、法律和行
政、口头和书
面问题、会议
日程等
OJL系列ECDC网页
经费申请的表
格和参考资料,
终生学习项目
和青年在行动
项目报告
OJL系列 瑏瑧,
二级立法
资料创建者EC-JRCEC-DGTEP-DGTRAD 瑏瑨EC-DGTECDCEC-EACEC-JRC
翻译者EC专家EC专家EP专家EC专家EC专家国家机构的
专业人士什么节日放孔明灯
东汉皇帝列表
EC专家
预加工者JRC+RAS 瑏瑩+
BUTE 瑐瑠
DGT和外部
承包商
(Prompsit)
EP-DGTRAD
DGT
(来自
Formex-4)
JRCEAC+JRCJRC
CELEX 瑐瑡
新贸易理论文档
有目前没有无有无无有EuroVoc-
索引
有目前没有无无无无有
  (一)JRC-Acquis
JRC-Acquis是EC发布的第一个句对齐预处理语库。门户网站Eur-Lex许多全文本HT ML或PDF格式的EU文档已对公众免费,但数据准备并不充分,无法满足计算语言学用途,即文档还未清晰对齐,文本未切分成句,对齐信息还不可及。JRC-Acquis、DGT-Acquis和DCEP都包含全文本文档,相较TM集合允许资料的额外使用,但无法获得句子语境。
JRC从Eur-Lex网站下载文档,结合内部EU文档(至少包含10种语言,其中3种是2004年之后加入EU的国家语言)进行整理,使用Vanilla 瑐瑢和HunAlign对所有可能语对进行句对齐,使语库以TEI兼容的XM格式呈现。而且,它对包含22种语
吴 菲:欧盟多语平行语料库的发掘和分析
言语库的整理和预加工可使不同资料格式统一为UTF8编码的XML格式,并通过摒弃无用语言文档核实文档语言,在将文本切分为编码段落块后确认文档末签名(包含地点、日期、姓名和地址条目)和文档附录。此外,JRC-Acquis还是唯一一个使用两种不同对齐软件进行句对齐的EU语库,允许使用者进行对齐操作。为降低存储量,跨语对齐以元信息方式存储,提供软件工具允许使用者为任何语对产出双语对齐语库。
(二)DGT-Acquis
DGT-Acquis可被当作JRC-Acquis的更新,因为它给研发机构提供了较大的对齐全文平行语库,包含几种不同的文档类型。但是,DGT-Ac quis与JRC-Acquis有很多差异:第一,它以更系统的方式建立(选择了自2004年起所有年份,所有OL系列文档)。第二,资料并非由JRC加工,而是由DGT和外部公司Prompsit 瑐瑣加工;全文文档使用内部软件段落对齐,而非公共软件句对齐。第三,同一资料有四个文件包,包含不同层面的对齐(原始资料、Formex-4文档层对齐、纯文本文档层对齐、纯文本段落层对齐),允许使用者据需求在最合适的加工层面获取资料,进行再加工。第四,以特殊的Muset容量格式编码[8],缩短大量多语平行数据(大数据)和开放链接数据(OpenLinkedData)的距离,使资料的自动使用更为简易。
此外,原始资料(Formex-4XML)也被包括进去,而且每个文档的TIFF图像文件和Formex-4XML版本都对使用者可及,这开辟了一个全新用途,即训练、测试OCR软件等。
(三)DCEP
DCEP是最新的EU语库,覆盖除克罗地亚语之外的所有EU语言。为避免与EuroParl语库重复,DCEP不包含EP全体会议的逐字报告(CRE文档)。
DCEP包含多种文档类型,英语词汇量总计1.03亿,其中报告(2900万)、采用文本(1900万)、问题书面回答(1500万)、书面问题(1200万)、国家或EU范围的媒体报道(1200万)、动议(700万)和全体会议记录(300万)。由于国会决议过程涉及提出意见、讨论和投票几个步骤,且每一步都需要记载,因而它基于决策步骤包含了与主题相关的文档。
大多数DCEP文档以几种语言呈现,但第一版的DCEP并非完全是平行语库,有些文档仅以一种语言存在。而且,DCEP目前仅仅在文档层面对齐,没有现成的句对齐。但是,包含所有语对的句对齐工作(使用HunAlign)正在进行,这一对齐资料未来也会在网站发布。
此语库以两个版本出现:源目录包含源格式(SGML或XML)语库,而条目录包含纯文本格式的相同文件,无SGML和XML标签。语库根据语言和文档类型被进一步细分。索引文件夹包含链接同一文档不同语言版本的文件,允许使用者编纂双语或多语语库。类似DGT-Acquis,DCEP相比DGT-TM和JEX提供了更广泛的文档类型和读写模式。未来的DCEP版本也会包含目前仅以MS-Word或PDF格式出现的文档。
(四)DGT-TM
第一版DGT-TM在2007年发布,包括2006年的EU文档,迄今有三版更新(2011年、2012年和2013年),计划逐年更新,到2013年包括23种语言(除克罗地亚语之外)
,但第23种语言爱尔兰语常被忽视。2014年发布的DGT-TM包含大约30000个爱尔兰语和200000个克罗地亚语TU。尽管第一版DGT-TM的TU对齐手动完成,后面版本使用DGT内部对齐软件Euramis进行全文本文档自动句对齐。DGT译者使用TM在碰到错误对齐时提供反馈,确保对齐质量。DGT也使用TM和其他平行资源测试内部SMT系统MT@EC———覆盖24种语言和552组语言对。自
宜宾学院学报 2021年2期(第21卷)
DGT-TM发布以来,它已成为译员使用较多的资源,其下载数量也高于其他EU资源。DGT-TM的建立仅基于立法文件(OJ中的L系列),对应EU现行法。之所以使用OJ的L系列建立TM是因为L系列被认为对EU译者最有用处,未来也可能加入C系列。
DGT在处理OJ数据时修改了源句,省略了对译员价值较低的TU(短句、长句、明显错配等),删除了句子计数器,在录音文本替代处重新插入了变音符;而且,DGT-TM的下载页面可以查看细节。此外,DGT-TM附有软件,允许使用者下载压缩文件为任何语对建立双语TM。不涉及英语的语对对齐则通过中介语英语进行。
(五)ECDC-TM
ECDC是一个位于Stockholm的EU机构,关注公共健康问题。ECDC-TM在将这一组织的英语网页翻译为欧洲经济区(EuropeanEconomicArea,简称EEA)的24种语言时创立,规模较小,但主题不同。ECDC-TM还附有软件允许使用者通过中介语英语给任何所选语对建立双语TM,帮助软件供应商制作更好的MT工具。
(六)EAC-TM
EAC-TM的TM由EAC教育文化总局提供,为两个EU项目翻译电子表格,分为电子表格的标签和目录(“表格数据”)以及复选框和下拉目录(“参考数据”)。由于资料的不同类型,这两个集合被分别存放。例如,标签可能是“国家”“请详述你的祖国”等,而参考资料可能是“德国”“基础/一般项目”“教育和文化”等。EAC-TM的规模较小,但覆盖不同的主题域,即教育、培训、文化、青年和运动。而且,它涉及的语种书面最多:除通常22种语言之外,还包括克罗地亚语、冰岛语、挪威语和土耳其语,因为这些国家都有资格参与EAC项目。随着翻译工具的不断发展,EAC-TM资料数量不断增加。此外,EAC-TM附有软件允许使用者为所选任意语对通过中介语英语产出双语TM。
(七)JEX
这里之所以描述JEX是因为此软件的发布涉及成千上万个平行文档(22种语言),给每种语言提
供了分类软件。这些文档只涉及CELEX类型3(二类立法),因而大多JEX文档也被收入JRC-Acquis、DGT-Acquis和DGT-TM。此语库的主要优势在于包含一套同质的手动EuroVoc-归类文档,可用于产出自动EuroVoc多层分类软件,在平行文档集合上形成上万个门类。而且,此语库附有软件可与其他系统的检索结果进行比对,很适合测试多语、跨语分类软件。纯文本JEX文档在文档层面对齐,而非句子层面。
三、 平行语库的用途
平行语库对创建统计机器翻译(StatisticalMachineTranslation,简称SMT)模型不可或缺。SMT最初使用加拿大国会辩论(Hansard)会议记录(英语和法语)。自2001年,受DARPA 瑐瑤资助的SMT致力于汉语和阿拉伯语与英语的互译,使用如联合国出版物组成的大型平行语库建模[9]2868-2872。2006年JRC-Acquis的发布推动了462组欧洲语对SMT系统的创立[7],涉及超过两种语言的平行语库通过开发三角测量已被用于提高MT结果,抑或通过多重翻译对应联合,抑或通过其交集。国内很多翻译研究者已利用语库平台和检索工具,开展翻译教学或研究[10-13]。
此外,多-单语、平行资源(语库、字典、工具)还可用于多语文本发掘工具的开发、训练和测试,其价值无法估量。除了SMT,平行句子集合还可用于开发多语词汇语义资源,如字典和体论;训练
测试信息萃取软件;为命名实体识别(NamedEntityRecognition)[14]进行注解投射(annotationprojec tion);情感分析[15][16]104-110;多文档总结[17]52-63;语
吴 菲:欧盟多语平行语料库的发掘和分析

本文发布于:2023-06-26 13:13:51,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1043954.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文档   语库   平行
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图