第35卷第3期 2021年3月
中文信息学报
J O U R N A L O F C H I N E S E I N F O R M A T I O N P R O C E S S I N G
Vol. 35, No. 3
Mar.,2021
文章编号:1003-0077(2021)03-0043-08
融合E M D最小化双语词典的汉一越无监督神经机器翻译
薛明亚K2,余正涛“2,文永华K2,于志强〃
(1.昆明理工大学信息工程与自动化学院,云南昆明650500;
2.昆明理T.大学云南省人工智能重点实验室,云南昆明650500)
摘要:神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任
务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD( Earth Mover’s Distance)最小化双语词典的汉-越无监督神经机器翻译方法,首先分别训练汉语和越南语的单语词嵌入,通过最小化它们的E M D训练得到汉越双语词典,然后再将该词典作为种子词典训练汉越双语词嵌入,最后利用共享编码器的无监督机器翻译模型构建汉越无监督神经机器翻译方法。实验表明,该方法能有效提升汉越无监督神经机器翻译的性能。
关键词:无监督学习;E M D;汉语越南语;神经机器翻译
中图分类号:TP391 文献标识码:A
Chine-Vietname Unsupervid Neural Machine Translation
Bad on EMD Minimal Bilingual Dictionary
X U E Mingya1.2,Y U Zhengtao1.2,W E N Yonghua1.2,Y U Zhiqiang U2
(1. Faculty of Information Engineering and Automation,Kunming University of Science and Technology,
Kunming,Yunnan 650500♦ China;
2. Yunnan Key Laboratory of Artificial Intelligence»Kunming University of Science and Technology»
Kunming,Yunnan 650500,China)
Abstract:Neural machine translation (N M T) has achieved good results in tasks with sufficient parallel corpora* but often has poor results in translation tasks with scarce resources. To address N M T between Chine and Vietname without large-scale parallel corpus* we explore the u of easily available Chine and Vietname monolingual corpora by mining cross-language information at the word level. A Chine-Vietname unsupervid neural machine translation method that incorporates Earth Mover's DistanceC EMD) to minimize bilingual dictionaries is propod.
F irst»monolingual word embeddings for Chine and Vietname are trained independently»and a Chine-Vietnam-
e bilingual dictionary is obtained by minimizing their EMD. The dictionary is then ud as a ed dictionary to train the Chine-Vietname bilingual word embeddings. Finally* the shared encoder unsupervid machine translation model is applied to construct a Chine-Vietname unsupervid
neural machine translation. Experiments show that this method can effectively improve the performance of Chine-Vietname unsupervid neural machine translation.
Keywords:unsupervid learning;Earth Mover's Distance;Chine-Vietname;neural machine translation
收稿日期:2019-12-19 定稿日期:2020-02-11
基金项目:国家重点研发计划(2019Q Y1801);国家自然科学基金(61732005,61672271,61761026,61762056,61866020); 云南省高新技术产业专项(201606)
44中文信息学报 2.021 年
〇引言
随着越南与我国的交流与合作越来越密切,机 器翻译是跨语言信息交流比较有效的方式之一.研究汉越机器翻译有着非常重要的应用前景。
神经机器翻译(neural machine translation, N M T)U_21是近几年提出的机器翻译方法,并且N M T翻译质量已经在多个语言对上超过统计机器翻译,成为主流的翻译方法。然而N M T需要大规模的平行
语料才能取得较好的效果,当训练数据不足时,会导致翻译质量不佳:1」。汉语和越南语之间的平行语料稀少且不容易获取•所以汉一越机器翻译是典型的低资源语言机器翻译。但是汉语和越南语有大量的单语语料,本文探索只利用单语语料的汉一越无监督N M T,这对于其他低资源语言的机器翻译的研究也具有重要的理论和应用价值。
近年来,国内外相关研究人员针对无监督机器翻译的方法进行了大量研究,并取得了一系列成果。目前,无监督机器翻译的研究方法主要有基于对抗学习(generative adversarial networks,G A N)白勺无监督机器翻译和基于共享编码器的无监督机器翻译。L a m p l e等人:'提出将两种不同的单语语料库句子映射到同一空间.通过学习用这两种语言重建共享特征空间.仅利用单语语料实现无监督N M T。
A r t e t x e等人[6]对模型进行修改,先预训练无监督的双语词嵌人,采用共享编码器和分别解码的方式提出了仅仅使用单语语料的无监督N M T。Yang 等人[7:提出权重共享的无监督机器翻译模型.相较于共享编码器模型强化了每种语言的自身特点和内部特征,以此提高翻译质量。L a m p l e等人[8」结合N M T和基于短语的统计机器翻译效果,可以得到进一步提升无监督N M T的效果。L a m p l e等人”:提出跨语言模型预训练,用于初始化查找表来提升预训练的跨语言词嵌人的质量•对无监督机器翻译模型的性能有显著提高。他们从相近语言的单语语料中利用同源词作为初始跨语言信息或者数字对齐,然后扩展学习实现无监督N M T。汉、越语言差异性较大,汉、越之间没有可以利用的同源词,所以 利用语言同源词的方法在汉-越语言对上不可行,而A r t e t x e等人提出共享编码器的无监督
N M T是 在无监督的双语词嵌人的基础上实现的,符合语言
差异性较大的特点。本文在A rte tx e等人的工作上进行延伸,通过提升无监督双语词嵌人质量来提升汉-越无监督N M T的质量。
在只使用汉语和越南语单语语料的无监督机器翻译中.要直接实现机器翻译较难,但获取双语词典相对较容易,因此本文考虑从汉、越单语语料中先训练汉越双语词典,然后利用汉越双语词典作为种子同指导训练较高质量的双语词嵌人,从而提高汉越无监督N M T质量。Z h a n g等人[1°]提出利用语言的词嵌人空间分布的相似性,使用E M D最小化的方法训练双语词典,整个过程只使用单语语料的无监督训练方式,且质量可以与有监督的方式相媲美,符合汉、越语言差异性较大的特点。所以本文提出融合E M D最小化双语同典的汉---越无监督N M T。
本文方法首先将汉语和越南语单语的词嵌人空间视为两个分布,通过最小化它们之间E M D距离训练汉-越双语词典,在不需要汉越双语信息的情况下,训练得到没有同源词语言的汉越双语词典。然后将汉越双语词典作为种子词典,利用自学习的方法训练汉一越双语词嵌人,在共享编码器模型上实现汉一越无监督N M T。
1融合EM D最小化双语词典的汉一越无监督NM T模型
1.1模型结构
药房工作总结
本文提出的方法是在A rte tx e等人共享编码器的基础上融合了基于E M D最小化的无监督双语词典,比原模型具有更强的挖掘汉语和越南语单语语料中跨语言信息的能力。模型架构如图1所示,该 模型遵循B ahdanau等人[1]提出的具有注意机制的标准的编码器和解码器,由一个共享编码器和两个解码器组成,两个解码器分别对应源语言和目标语言。编码器端为双层双向循环神经网络(BiGRU),解码器端为双层循环神经网络(U niG R U)。关于注意力机制,本文使用L u o n g等人11提出的全局注意力方法和一般对齐函数。在编码器端,使用预训练的汉-越双语词典和双语词嵌人,接受输人序列并生成与语言无关的表征。而解码器端的词嵌人会随着训练不断更新,通过两个解码器进行训练和翻译。
对于汉语(L1)中的每个句子.系统交替两个步骤训练:去噪,它优化了用共享编码器对句子的噪声编码进行编码的概率,并用L1解码器重建它;回
薛明亚等:融合E M I )最小化双语词典的汉越无监督神经机器翻澤
45
3期shared encoder (L1/L2)
LI decoder
fixed cross-lingual
i ...
embeddings 1
\;
H *
unsupervid <D
bilingual lexicon
L 2 decoder
图
1融合EMD 最小化双语词典的汉越
无监督
N M T 模型
译,并进行动态反向翻译,它以推理模式翻译句子 (用共享编码器对其进行编码并用越南语(L 2)解码
器进行解码),然后用共享编码器优化编码该翻译语 句的概率,并用L 1解码器恢复原始句子。模型的 训练在L 1和L 2中的句子之间交替进行。
(1)
对偶结构虽然N M T 系统通常是针对特
定的翻译方向而构建的(如汉语一越南语或越南语 —汉语),但本文利用机器翻译的双重性质[1213]同 时处理两个方向(如汉语一越南语)。
(2)
共享编码器类似于H a 等人:M ]、L e e 等
人[15]和Jo h n s o n 等人[1S],本文的系统是由两种语言 共享的一个编码器。即汉语和越南语使用同一个编 码器进行编码。该共享编码器旨在将两种语言表示 成与语言无关的形式,然后将每个解码器解码成与 其对应的语言。
(3) 预训练固定的双语词嵌入虽然大多数
N M T 系统随机初始化其词嵌人并在训练期间更新
它们,但在编码器中使用预先训练的跨语言词嵌人, 这些词嵌人在训练过程中保持不变。编码器具有与 语言无关的单词级表示,并且它只需要学习如何组 合来构建较大短语的表示。对于系统中提到的无 监督的双语词典和双语词嵌人,将在下文中详细 介绍。
1.2基于E M U 最小化训练的无监督双语词典
双语词典的获取大体可以分为三个步骤:第一 步,将两种语言中的每个词表示为向量;第二步,为 两种语言的向量空间建立联系,得到共有的双语向 量空间;第三步,在双语向量空间中进行査找,获取 双语词典。
首先使用W 〇rd 2VeC [17U l |练汉语和越南语单语 词嵌人,完成第一步。词嵌人分布如图2所示,图中 所示的汉语和越南语的词嵌人是分别独立地在各自
语言的单语语料上训练得到的,可以看出两种语言 的单语词嵌人空间表现出近似的同态性,这意味着 存在线性映射能够近似地连接这两个空间。
工作励志寄语M ikolov 等人[18]利用种子词典来学习这个线性映
射.然而,本文希望完全不使用双语监督信号,因此 需要设计一个方法来学习这个映射,并且这个方法 不能依赖于种子翻译词对这种级别的监督信号。在 生成对抗网络[19]的基础上,把词嵌人的跨语言映射 学习建模成一个对抗游戏,张檬等人[2°]成功实现了 不使用任何双语监督信号联系两种语言的词嵌人空 间,使得单纯的基于非平行语料的双语词典构建成 为可能。在此基础上本文使用最小化它们的EMD 训练得到无监督的汉越双语词典。
猫
Ngua
M eo
Cho
汉语
安全生产月主题越南语
图
2
汉语和越南语的单语词嵌人空间
将图2中的圆点视为土堆,方块视为坑洞,它们 的大小代表土堆的体积和坑洞的容积,或者说相应 的权重。在图3(a )中,所有的权重都相等。在这个
图
3 Hubness 问题
设定下,希望用最小的整体代价来移动土堆填满坑 洞.而代价是由移动土堆的距离和体积的乘积衡量 的。图3(b )中的箭头代表了这个示例下的最优移 动方案,而这个方案正好可以视为词汇翻译的结果。 从单个词语看,由于’’Am nhgc ” 土堆中的泥土已经 全部用来填“音乐”坑洞,它将不会去干涉“舞蹈”坑 洞,从而由“NM y rmia ”土堆负责填满“舞蹈”坑洞。 从整个词语集合看,整体移动代价的最小化使得可 以考虑全局的信息,从而克服最近邻查找的局部性. 以应对h u b n e s s 问题•。上述比喻代表全局带权 匹配思想,在数学上可以用E M D 来实现,它的名字 正是来源于上述的比喻。其对应如下的线性规划问 题,如式(1)所示
。
46中文信息学报2021 年
V, vs
m i n2
; = i
v、( 1)
<,.,e u,…,V,}
j = i
crazy的意思
v,
1= 1
其中,V,代表源语言词汇表大小,V,代表目标语言词汇表大小,C,,代表第/个土堆与第)个坑洞之间的距离I代表第/个土堆的体积代表第J 个坑洞的容积,w,,为优化问题的决策变量,代表从第/个土堆转移到第7个坑洞的泥土体积,因此,B 标函数即为最小化整体的移动代价。求解完成后,非零的值即代表第)个源语言词与第/个目标语言词之间存在翻译关系。实验为了能更好地发挥E M D处理一词多译现象的能力,将t:M D引入双语词嵌人的训练过程中。在训练的目标函数中,EMD 作为其中一项以正则的形式参与训练,使得训练得到的双语词嵌人能够更好地捕捉一词多译现象,其 效果通过实验得到了印证[22]。
前面对抗学习的方法也可以放在这个框架下看待,因为对抗学习隐式地优化f J enn-Shannon divergence |9」。但是对于词汇翻译的任务来说,可 能有其他更好的分布距离供选择。由于K M D也是分布之间距离的一种度量,其对词汇翻译任务非常适合,所以考虑使用E M D作为词汇表级別的准
则来指导线性映射的学习,即寻找一个映射G.使得源语言经过映射后的词嵌入分布与目标语言的词嵌人分布之间的E M D最小化.如图4所示。使用数学公式可以表示成式(2)的形式。
m inEM D(/)(“,),/>.',)(2)
(;
其中代表经过G映射后的源语言词嵌人分布,/»、代表目标语言词嵌人分布。
在E M D的优化问题上,利用了Wasrstein G A N(W G A N),它可以视为优化E M D的G A N变 种,再结合将K M D代人式(2)进行优化,有效地最小化E M D.找到相应的映射。
1.3 融合KMI)最小化双语词典的汉越双语词嵌入
的学习
词嵌入映射假设汉语和越南语的词嵌人矩阵分别为X和I A:,.为源语言的第,个词的向量.
I.为H标语言的第j个词的向量;词典/)为一个
Chine embeddings
1狗
_
马
■猫
上海去普陀山■
嫦娥奔月的由来Ngua
_C h6
Meo
Vietname embeddings
m4e m i)最小化学习
二进制的矩阵,当源语言第;+个词与0标语言的第)个词对齐时=1。词映射的目标是找到一个映
射矩阵v v*,使映射后的x,.和v v的欧氏距离最近,如式(3)所示。
W=arg m i n y] ^I I X,.W—V,.1|」(3)
对矩阵X和V进行标准化和中心化,并将V V 设置为正交矩阵后,上述求解欧氏距离的问题相当
于最大化点积,如式(4)所示。
W* =arg minTr(X V W; O / )(4)
w
其中,7>表示矩阵的迹运算。可以求解得到最优解为VV =UVT(L/、V表示两个正交矩阵),经过奇异值分解,11^=1/^]v T。鉴于矩阵/)是稀疏的,可以在线性时间内得到解。
原路看斜阳词典自学习映射后的源语言词的词嵌人与目
标语言词的词嵌人在同一个空间内。根据最近邻检索的方法,为每个源语言词分配一个距离最近的目
标语言词,将对齐的词对添加到同典中,再次进行迭代,直到收敛。
以图5为例.一开始词典中对齐的词对为(马-Ngvra,狗-Ch6),根据词典L1进行了一次映射,使得映射后的“马”与“N g仰”以及“狗”与“C h6 ”之间 的欧氏距离最近。然后在映射后的空间里,为其他词寻找距离最近的对应间,可以发现“猫”与“Mdo”的距离较近,因此把它也加人词典中。此时,尽管词典中包含了所有的词对.却并不是最佳的结果。将 更新后的词典(马-NgVa,狗-Ch6.猫-M h)作为新的参考词典,重新进行欧氏距离的计算,得到了新的映射矩阵W’ .从而获得新的对齐结果。
训练结束用集束搜索(beam arch)进行翻泽,束的大小需权衡翻译的时间以及搜索的准确性来
G Ngua
、
入党思想汇报格式4
M eo
猫
C h6
狗
Vietname and transformed Chine
embeddings
3期薛明亚等:融合EMD最小化双语词典的汉越尤监锊冲经机器翻译47
确定。典,是将无监督获得的词典作为种子同典来提升词融合基于E M D最小化训练的无监督双语同 典A学习的效果,进而提升双语词嵌入的质量。
马-N g\ra、狗-Ch6、猫-M do
M j-N g y a
狗-Ch6
1.4 融合EM丨)最小化双语词典的汉-越无监督
NMT模型的训练
在Artetxe等人[6]的实验中证明,在系统中加
人去噪和回译有助于提升翻译质量,因此本文使用
带有去噪和回译的共享编码器系统。
对汉语(L1)中的每个句子,该系统都通过两个
步骤进行训练。去噪:如图6(a)所示,其优化了用
共享编码器对句子的噪声编码的概率,并用U解
码器重建它;回译:在推理模式(inference mode)下
翻译该句子(使用共享编码器编码该句子,如
图6(b)中.使用越南语(L2)解码器进行解码),然后
利用共享编码器优化对译文句子进行编码和使用
L1解码器恢复源句子的概率。交替执行这两个步
骤对L1和L2进行训练,对L2的训练步骤和L1类
似,如图6(c)、图6(d)所示。神经机器翻译系统通
常用平行语料库进行训练,由于本例只有单语语料
库.因此该监督式训练方法在本文的场景中行不通。
但使用图1的系统架构,能够结合去噪和回译两种
L1-L1M译 _________,L1回译
u,---------j 解码器l p L1 ,~1=:
共亨.编码器编码器1
解码器1 f
解码器2 (a)
解码器2 L12'
(b)
(c) (d)
图6融合EMD最小化双语词典汉越无监督N M T模型训练的四个过程方法用无监督的方式训练整个系统。
去噪:由于使用了共享编码器,并利用了机器 翻译的双重结构,本文的系统可以直接训练来重构 输入句子。具体来说,系统使用共享编码器对给定 语言的输入句子进行编码,然后使用该语言的解码 器重构源句子。由于在共享编码器中使用了预训练 的跨语言词嵌人,所以该编码器学习将两种语言的 嵌人合称为语言独立的表征,每个解码器都应该学 习将这类表征解码成对应的语言。在推理模式下. 本文仅用0标语言的解码器替代源语言的解码器,这样系统就可以利用编码器生成的语言来独立表征 生成输人文本的译文。
本文在输人句中引人随机噪声。这个想法是利 用相同的_动编码器去噪原理.系统经过训练可以 重建损坏的输入句子的原始版本。为此•通过在连 续单词之间进行随机交换来改变输人句子的单词顺 序。对于N个元素的序列,进行这种N/2个随机 交换。这样,该系统需要学习该语言的内部结构以 恢复正确的词序。同时,通过阻止系统过分依赖输 人序列的词序,可以更好地解释跨语言的实际词序 差异。
冋译:在系统中加人Sennrich等人」提出的 回译方法。具体地.给定一种语言的输入句子.系统 使用贪心解码在推断模式下将其翻译成另一种语言 (即利用共享编码器和另一种语言的解码器)。这样,可以获得伪平行句子对.并训练系统从该合成翻 译中预测原始句子。
需要注意的是,与使用独立模型一次反向翻译 整个语料库的标准反向翻译相反.利用所提出的体 系结构的双重结构,使用正在训练的模型即时反向 翻译每个小批M句子。这样.随着训练的进行和模 型的改进,
它将通过反向翻译产生更好的合成句子