-86-科学技术创新2019.05
基于枢轴语言的多语言神经机器翻译研究
Rearch on Multilingual Neural Machine
Translation bad on Pivot Language
刘清民姚长青何彦青石崇德
(中国科学技术信息研究所,北京100038)
摘要:机器翻译多年来的发展,虽取得显著进步,但是离完美取代人工翻译还有很长的路要走。不仅需要克服自身方法或算法的不足,还受到平行语料规模和质量的制约。本文提出用枢轴语言作为桥梁,借助已有的机器翻译技术,通过构建伪平行语料以及借助中间语言实现多语言机器翻译,并取得很好的翻译效果。
关键词:多语言;机器翻译;神经网络
Abstract:Machine translation has made remarkable progress over the years,however,it still has a long
way to go to replace human translation perfectly.It not only need overcome the shortcomings of its own methods or algorithms,but also is restricted by the size and quality of parallel corpus.In this paper,we u pivot language as a bridge with the aid of existing machine translation technology and realize multilingual machine translation by constructing pudo parallel corpus and intermediate language.Finally,we achieved good translation results.
学生证模板
Key words:Multilingual;Machine translation;Neural network
中图分类号:TP312,TP314文献标识码:A文章编号:2096-4390(2019)05-0086-03
1概述
机器翻译,人们又将其称为自动翻译。它是通过计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。平行语料是由原文文本及其平行对应的译文文本构成,按照对齐程度可以将其分为字词级、句子级、段落级和篇幅级叫网络的快速发展,经济全球化的形成增加了世界各国之间的交流。机器翻译在解决不同语言人们交流有着很重要的作用,平行语料作为机器翻译的基础资源,则显得更为重要。虽然各科研机构和企业都在构建平行语料,但是受到领域以及成本的限制,平行语料有限,机器翻译发展受到限制。
在机器翻译领域,随着汉语重视度提升,积累了与其他语言不少的平行语料,特别是一些科技领域叫本文针对这一情况,以汉语作为枢轴语言,在日汉、汉英专利领域平行语料的基础上实现高质量的日英专利领域翻译。一种是以汉语为枢轴语言,通过搭建高质量的日汉、汉英翻译系统,由日->汉->英的顺序实现日英翻译系统;另一种是通过搭建高质量的汉日、汉英翻译系统,构建伪平行语料,实现日英翻译。实验中涉及到的问题有:(1)通过中间语言形成的机器翻译译文,其质量对最终翻译结果的影响;(2)构建伪平行语料是否可以形成高质量翻译。
2系统描述
为了实现高质量的双语机器翻译系统,本文分别尝试了统计机器翻译(Statistical Machine Translation,SMT)、神经机器翻译(Neural Machine Translation,NMT)以及两者相融合的策略,并利用基于短语的统计机器翻译辅助处理UNK词汇(Unknown Words)o
2.1机器翻译系统
2.1.1统计机器翻译系统
狮子座女和什么座最配统计机器翻译,特别是基于短语的统计机器翻译,能够容纳训练语料中的所有词汇,可以充分辅助翻译UNK词。在基于短语模型的统计机器翻译中,给定源语言句子S=s L,以短语为基本单位,通
过对数线性模型,将多个翻译特征进行线性整合,再利用Beam Search搜索具有最大概率的目标翻译T=Ko
2.1.2基于神经网络的翻译系统
神经机器翻译近年来取得了重大进展。与包含多个单独调整组件的传统统计机器翻译不同,NMT构建了一个端到端框架来模拟整个翻译过程%与SMT相比,在很多语言对上,NMT实现了更好的翻译效果,它将句子进行序列化向量编码,通过编码器和解码器,利用端到端的训练方式对训练语料进行学习。
在本论文中,采用了两种神经机器翻译系统。一个是基于循环神经网络(Recurrent Neural Networks,RNN)的神经机器翻译,另一个是基于注意力机制的神经机器翻译。Vaswani等人將堆叠的自我注意层添加到机器翻译中,取代传统的RNN模型,翻译效果显著提升,同时还提高了训练速度。大熊猫的生活习性
因为NMT的词表规模受限,产生了UNK词问题。对于出现的UNK词,我们借鉴Luon附等人的的思路,通过词对齐生成词表,参照词表,采用attention将UNK词替换成最可能的翻译词。
2.1.3系统融合
神经机器翻译模型简洁,翻译通顺,有助于减少统计机器翻译上常见的形态学错误、句法错误和词序错误,但是有词汇受限、罕见词难以翻译等问题。基于统计的机器翻译没有词表的限制。针对两类机
器翻译的特点,我们将两类翻译结果有效地进行系统融合叫常用的多机器翻译系统融合可以从句子、短语和词三个级别上独立进行。本文采用词级的系统融合技术来构建混淆网络,将该混淆网络转换为短语表。然后使用该短语表利用短语级的系统融合技术中的重解码技术来进行解码,生成最
2019.05科学技术创新-87-
图1日英翻译系统训练框架
后的融合结果。
2.2多语言机器翻译
多语言机器翻译任务试图发掘不同语言之间的对应和转换
关系,本文在只有专利领域的汉英、汉日平行语料,没有日英平
写亲情的诗句>儒家学说行语料的前提下,实现日语到英语的翻译,并取得了很好的翻
译效果。本文提出两种思路训练日英翻译系统,实现多语言机
器翻译,整体思路见图l o
第一种是利用汉英、汉日平行语料训练日汉、汉英翻译系
统,通过汉日翻译系统将日语测试集翻译为汉语,通过汉英翻
译系统将汉语翻译成英语,从而获得英语译文。第二种是利用
汉英平行语料分别训练汉英、英汉翻译系统,利用汉日平行语
料分别训练汉日、日汉翻译系统。然后通过汉日翻译系统将汉
英平行语料中的汉语翻译为日语,与其中的英文语料构建日英
伪平行语料,训练日英翻译模型A。通过汉英翻译系统将汉日平
行语料中的汉语翻译为英语,与其中的日语语料构建日英伪平
行语料,训练日英翻译模型B。将以上两个小规模的伪平行语料
汇合形成大规模的日英伪平行语料,训日英模型模型Co
3数据
训练集、开发集、测试集均使用CWMT2018评测主办方提
供的语料,各任务的语料情况如表1所示:
表1语料统计表
任务训练集开发集测试集
茉莉树英汉专利日汉专利3000000
3000000
3000
3000
1000
对双语训练集,开发集做预处理:控制符和乱码去除处理,转义字符还原,然后进行分词,其中对汉日、汉英平行语料进行筛选,除去不符合标准的句子。使用Urheen的中文分词工具对中文语料进行分词、日文分词工具对日文语料进行分词、英文分词工具对英文语料进行Tokenization、大小写转换。
处理后语料统计如表2所示:
表2处理后语料统计表
任务训练集
英汉专利2961400
日汉专利2900014
生活的艺术
4实验与结果
4.1参数设置
利用0penNMT巾平台进行配置升级,编码与解码为Bi-GRU O共训练20轮,选择翻译效果较好的一轮作为翻译模型。在PBSMT引擎中,需要对双语语料进行词对齐处理。此处词对齐工具采用GIZA++叫全部使用默认的参数),并对该对齐结果进行扩展对齐(grow-diag-final)。Tensor2tensor l9]中的参数设置,采用双GPU对平行语料进行训练和解码,其他的参数选择默认参数,同时适当地调整训练步长。
4.2多语言机器翻译
在多语言机器翻译中,采用2.2小节中系统C的训练模式,Tensor2tensor训练汉英、汉日系统,获取伪日-英语料A共计2961400句对,日-伪英语料B共计2900014句对,合并为C语料5861474句对。经开发集测试打分,A和B语料翻译效果没有C语料好,因此后续实验均采用C语料进行训练。使用Tensor2tensor对C语料训练20万步、21万步、22万5千步,生成三个日英翻译模型。使用OpenNMT对C语料训练日英翻译模型,共训练20轮,OpenNMT_rep_unk借助统计机器翻译翻译UNK的翻译系统。使用Tensor2tensor训练日汉、汉英翻译模型,借助以上两个翻译模型将测试集的日文翻译为中文,再翻译为英文(JP2CN2EN)。在开发集上的翻译表现见表3。
实验主系统(primary-a):将表3中的五个翻译结果进行翻译结果融合,五个翻译结果分别是t2t-20,t2t-21,t2t-225和OpenNMT_rep_unk o
对比系统:
(1)contrast-b:使用Tensor2tensor将大规模日英诂料训练21万步。
(2)c ontrast-e.:同JP2CN2EN。
多语言各系统在开发集和测试语料上的打分结果如表3所示。从开发集打分结果来看,Tensor2tensor取得了较好的翻译效果,说明采用全注意力机制的翻译模型有助于提升翻译效果。构建伪平行语料策略
优于借助中间语言翻译,伪平行语料质量越高,多语言机器翻译效果越好。系统融合有了小幅度的提升,与测试集相比,提升效果有限。
5结论
在实现多语言机器翻译中,通过构建伪平行语料训练多语言神经网络机器翻译模型取得较好效果;其次,统计机器翻译可辅助神经机器翻译获得更优翻译结果。在以后
(转下页)
-88-科学技术创新2019.05
铁路通信工程中的无线接入技术
赵陈锋
(中国铁路青藏集团有限公司电务部,青海西宁810001)
摘要:当前人们出行的方式中最重要的一个还是铁路,它对人们的生活有着积极的作用。由于人们生活质量的不断提升,对铁路的要求也逐渐提升,为了使铁路工程不断深入的发展,使铁路通信工程质量不断提升。从铁路通信工程无线接入技术的概述以及特点入手,对GSM-R技术进行介绍,并将无线接入技术在铁路通信中的应用进行论述,从而使铁路通信得到不断深入发展。
关键词:铁路;通信工程;无线接入;技术
中图分类号:U285文献标识码:A文章编号:2096-4390(2019)05-0088-02
1铁路通信工程无线接入技术
无线接入技术就是将无线传输媒体接入到网络中,将固定或移动终端服务向用户进行提供,但是因为铁路的运行速度是非常快的,使得在铁路通信网络中大多数使用的都是无线接入网络。铁路通信的主要作用就是为相关人员提供及时、可靠的通信,比如乘客、工作人员、运维人员以及应急救援等等,使铁路运输的效率得以大大提高,使服务水平不断提升,从而使火车的安全得以有效保证。同时,随着铁路通信式程中无线接入技术的不断发展,想要使铁路通信功能得到保证,其电信增值服务以及相关业务也要能使铁路的通信需求得以满足。
2铁路通信工程无线接入技术的特点
对于铁路通信工程来说,无线接入技术的特点共有三个方面叫一是覆盖范围广,二是传输效率高,三是适应性强,具体见图lo
图1铁路通信工程无线接入技术的特点(转下页)
表3多语言开发集和测试语料打分结果
参评系统开发集测试集
t2t-200.3950
t2t-2103966
t2t-2250.3952
OpenNMT0.3732
O penNMT_rep_u n k0.3844
嗫嚅的意思JP2CN2EN0.3672
primary-a0.40210.3904
contrast-b0.396603908
contrast-c0.367203629
的研究中,我们可以将多语言机器翻译嵌入到架构中,实现多语言的实时机器翻译。
注释
①www.openpr/index.php/NLP-Toolkit-For-Natural-Language-Processing/68-Urheen-A-Chine/English-Lexical一Analysis-ToolkitA^i ew-details.html
参考文献
[1]庞伟.双语语料库构建研究综述[J].信息技术与信息化, 2015(3):105-108.
[2]单华,张玉洁,周雯等.基于枢轴语言的平行语料构建方法[J],情报工程,2017,3(3):29-39.
⑶Bahdanau D,Cho K,Bengio Y.Neural Machine Translation by Jointly Learning to Align and Translate^].Computer Science, 2014:1-15.[4]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need[J].2017.
⑸Luong M T,Sutskever I,Le Q V,et al.Addressing the Rare Word Problem in Neural Machine Translation[J].Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca.Veterinary Medicine,2015,27⑵:82-86.
[6]何彦青,孟令恩,丁亮等.2015全国机器翻译研讨会ISTIC 评测报告[J].情报工程,2016,2(5):58-66.
[7]Guillaume Klein,Yoon Kim,Yuntian Deng,et al. OpenNMT:Open-Source Toolkit for Neural Machine Translation [J].2017.
[8]Och F J.GIZA++:Training of statistical translation models [J].2000.
[9]Vaswani A,Bengio S,Brevdo E,et al.Tensor2Tensor for Neural Machine Translation[J],2018.
基金项目:本文受国家自然科学基金项目(61303152; 71503240;71403257);中国科学技术信息研究所重点工作项目(ZD2017-4)和多语言科技信息服务关键技术研究与应用(项目号:ZD2018-16)支持。
作者简介:刘清民(1993-),男,硕士研究生,研究方向:自然语言处理、机器翻译;姚长青(1974-),男,研究员,研究方向:科技评价、情报分析技术研究;何彦青(1974-),女,副研究员,研究方向:自然语言处理、机器翻译;石崇德(1979-),男,副研究员,研究方向:自然语言处理、机器翻译。