2023年4月18日发(作者:溶气罐)微软马树铭:零样本迁移?全新多语⾔预训练模型DeltaLM!
编辑整理:魏瑾
出品平台:DataFunSummit
导读:⽬前,多语⾔神经机器翻译受到越来越多的研究⼈员的关注,多语⾔预训练模型对神经
机器翻译可以起到⾮常重要的作⽤。预训练模型⾃⾝的跨语⾔迁移能⼒,可帮助机器翻译减少
标注和训练成本,提⾼机器翻译的跨语⾔迁移能⼒。我们提出了⼀个新的多语⾔预训练模型
——DeltaLM,该模型基于Encoder-Decoder架构,最⼤限度继承了pretrained encoder的跨语
⾔迁移能⼒,降低了训练成本。DeltaLM采⽤了全新的架构,设计了全新的预训练任务。在多语
⾔神经机器翻译中,提出了two-stage fine-tuning,对多语⾔预训练模型进⾏微调,减少对不同
语⾔和位置的依赖,实现了跨语⾔翻译和零样本的迁移能⼒。经多项实验证明:与现有模型相
⽐,采⽤较少的数据,我们采⽤预训练模型的多语⾔神经机器翻译就可以达到较好的效果。
今天的介绍会围绕以下问题展开:针对⼀个机器翻译任务,如何设计⼀个好的预训练模型,有
了⼀个好的预训练模型后,如何有效地运⽤到机器翻译任务中去。内容如下:
机器翻译技术路线图回顾
多语⾔神经机器翻译框架
预训练模型(Pretrained Model): DeltaLM
预训练模型(DeltLM)与多语⾔神经机器翻译(MNMT)
DeltaLM与神经机器翻译(NMT)零样本的跨语⾔迁移
结论
01
机器翻译技术路线图回顾
统计机器翻译(SMT):需要⼤量的特征⼯程。
神经机器翻译(NMT):端到端模型,不需要特别多的特征⼯
程,但是不同的翻译⽅向需要设计不同的模型,⽐如中⽂→
英⽂,中⽂→⽇⽂都各⾃需要单独的模型。
多语⾔神经机器翻译(MNMT):受到越来越多研究⼈员的关
注,特点是统⼀的模型⽀持多种语⾔之间的相互的翻译,
具有以下优点:
降低部署和训练成本,⼀个模型搞定多个语⾔之间的相互翻译;
⼀个模型内部⽀持多语⾔之间互相迁移,⽐如⾼资源语⾔⽅向⽀持低资源语⾔的翻译。
02
多语⾔神经机器翻译框架
多语⾔神经机器翻译基于encoder-decoder
框架。
1. 训练(Training)
多语⾔神经机器翻译的训练语料具有如下特点:
多语⾔句对语料的融合,作为⼀个统⼀的训练语料;
不同语⾔翻译⽅向的语料规模不⼀样,有些⽐较多,⽐如中→英,有些⽐较少,⽐如中→印第
语;
处理训练数据时,需要制定采样标准,平衡不同语⾔⽅向的语料规模,通常样本和训练数据规
模制定如下标准界定:
采样率:
2. 模型(Mod贺贝贝
eling)
多语⾔神经机器翻译框架有如下特点:
⼀个统⼀的模型:所有的语白蛇传片尾曲
⾔共享相同的参数,由encoder-decoder组成;Encoder对输⼊⽂本
进⾏建模;Decoder⽣成输⼊⽂本所对应的翻译。
跨语⾔迁移的能⼒:⾼资源语⾔帮助低资源语⾔。
与传统神经机器翻译相⽐,多语⾔神经机器翻译的输⼊前需要预设语⾔标签,控制语⾔翻译的
⽅向,如上图中最下⽅“I want to read a book.”的例⼦。
3. 预训练模型
通常,多语⾔机器翻译在正式翻译前⾯临两个问题:
怎样获得更好的⽂本表⽰;
怎样把多种不同语⾔的⽂本映射到同⼀个空间。
这两个问题可通过语⾔预训练模型实现。过去的语⾔预训练模型更多的关注⾃然语⾔的理解,
我们最近针对语⾔⽂本的⽣成和翻译提出了⼀个新的语⾔预训练模型:DeltaLM。
03
预训练模型(Pretrained Model): DeltaLM
DeltaLM模型是基于encoder-decoder 框架的模型,由两部分组成:
预训练的encoder:利⽤已有的预训练模型,⽐如XLM-R;
加⼊⼀个decoder,作为pretrained encoder的额外的Task Layer。
1. DeltaLM框架
DeltaLM主要通过以下步骤实现:
Encoder初始化;
设定专门的预训练任务,对整个Encoder—Decoder模型预训练。
① 为什么需要⼀个pretrained encoder,⽽不是⼀个随机初始化的encoder?
效率上的考虑:因为已有的pretrained encoder已在⼀个的⼤规模语料上进⾏了很长时间的⽆监
督训练,具备了⼀定的⽂本理解能⼒。如果继续在这个基础上训练,能够加快模型收敛的过
程,提升了转化速度,降低训练成本,⽐如DeltaLM训练⼀周就可以收敛。
有效性上的考虑:对⽂本⽣成和机器翻译⽽⾔,⼀个强壮的解码器⾮常重要,业内已有的⼯作
和我们的实验证明了这点;pretrained encoder已具备了良好的跨语⾔间的迁移能⼒,多语⾔机
器翻译利⽤这些多语⾔的pretrained encoder,可以继承这种能⼒,这点⾮常重要。
② 为什么需要⼀个单独的Decoder?
⾸先,⼀个单独的Decoder可以很⼤程度上解耦开Encoder和Decod爱国名言名句
er,因为在多语⾔机器翻译
中,输⼊和输出不同的语⾔,共享同样的参数空间或者⽂本表⽰空间是⾮常困难的,解耦开
Encoder和Decoder可以避免这种困难免费初中课程网课
,也有利于后续的微调。
另外,拥有⼀个单独的Decoder,可以更加灵活的选择和设定Decoder架构。
拥有pretrained encoder和decoder后,我们可以通过encoder-decoder pre-training 任务将两者
融合起来,得到⼀个好的预训练encoder-decoder模型。
2. 如何初始化解码器?
实际设计⼀个预训练模型,需要解决的问题之⼀是:如何初始化解武汉梁佳玉声乐培训
码器(Decoder)?
初始化Encoder⽐较简单,因为⽹络架构相同,只是参数不同。但是解码器与编码器构造不同,
初始化较为复杂,需要精细调整,以适应pretrained encoder。
另⼀个问题是:如何设定预训练任务实现Encoder-Decoder pretraining?
通常需要考量两个问题:⾸先,最⼤程度上保留pretrained encoder原有的能⼒;另外,要有效
地融合已有的⼤量的双语语料数据,进⼀步增强预训练模型的效果。
关于初始化Decoder,我们提出了⼀个新的decoder,interleaved
decoder。这个Decoder可以完全利⽤pretrained encoders的所有参数。
上图是我们的解码器和经典Vanilla解码器的对⽐。
经典的Vanilla解码器:
有⼀个lf-attn,⼀个cross-attn,⼀个FFN;
初始化为pretrained encoder → lf-attn + FFN,随机初始化cross-attn;
它的缺点是架构与预训练的编码器不⼀致,可能⽆法继承encoder原有能⼒。
⽽我们的解码器有如下特点:
每⼀个attention有⼀个FFN;
交替初始化lf-attn / cross-attn;
完全利⽤了预训练encoder的所有参数,加快了训练进程,也可以利⽤pretrained encoder的跨
语⾔迁移能⼒。
3. DeltaLM:预训练任务
我们设计了⼀个新的预训练任务,能够同时很好的利⽤⼤规模单语⾔⽂本和双辛亥革命的意义
语⾔⽂本。
为利⽤单语⾔⽂本,我们采⽤了与google同样的预训练任务——Span Corruption Tasks (T5)。
该任务⽬的是重建输⼊单语⾔⽂本,输⼊含有mask⽚段的⽂本span,预测对应的masked的⽂
本⽚段span,如上图中的第⼀个例⼦。花月夜多肉
针对双语数据,我们采⽤了⼀个新的预训练任务:Translation Pair Span Corruption Task。将
双语数据拼到⼀起,输⼊含有mask⽚段的⽂本,预测mask的⽂本⽚段,⽐如上图第⼆个例⼦。
该任务可以很好的利⽤双语语料数据,找到不同语⾔之间的对应关系。
设计了预训练任务之后,我们可以训练初始化的encoder-decoder模型,得到⼀个很好的预训练
模型。
04
预训练模型(DeltaLM)与多语⾔神经机器翻译(MNMT)
1. DeltaLM应⽤到MNMT
有了预训练模型之后,可以直接运⽤到多语
⾔神经机器翻译上。对于MNMT,我们可以
直接微调DeltaLM。
初始化Encoder,采⽤Span Corruption Task和Translation Pair Span Corruption Task对
DeltaLM进⾏预训练,最后使⽤多个不同语⾔⽅向的双语数据对整个模型进⾏微调,就可以进⾏
翻译任务了。
2. 使⽤DletaLM进⾏的机器翻译任务实验
① 实验:DeltaLM模型在多语⾔机器翻译中的应⽤
X→E:不同语⾔到英语的翻译;E→X:英语到不同语⾔的翻译
可以看到,DeltaLM基于11种语⾔的语料,微调后的 FB m2m⽀持101种语⾔。与已有的模型相
⽐,我们的DeltaLM效果⾮常不错。
② DeltaLM模型的跨语⾔摘要任务
与mt5相⽐,仅给了30%参数的DeltaLM就可以达到类似的效果。
WikiLingua数据集
输⼊:西班⽛语/俄语/越南语/⼟⽿其语⽂档
输出:英语摘要
③ 实验:DeltaLM数据-⽂本的泛化能⼒
仅拥有360M的参数,DeltaLM超出了mt5 XL(3.7B)。
输⼊:⼀系列的零散描述数据
输出:输⼊数据的连贯性总结
④ 实验:DeltaLM多语⾔的语⾔泛化能⼒
跨越不同的任务/语⾔,DeltaLM获得了持续的提升。
实验设置:
问题的⽣成能⼒(XOG)
输⼊:中⽂答案和相应的⽂档
输出:对应的中⽂问题
摘要总结(XGiga)
输⼊:法语⽂档
输出:法语摘要
⑤ 实验:DeltaLM零样本的跨语⾔迁移能⼒
DeltaLM在零样本的跨语⾔迁移表现出⾊。与现有模型相⽐,使⽤较少的参数,DeltaLM就能达
到同样的效果。
实验设置:
摘要提炼能⼒(XGiga)
训练:英语⽂档→英语总结
测试:汉语⽂档→汉语总结;法语⽂档→法语总结
05
多语⾔预训练模型与神经机器翻译(NMT)零样本的跨语⾔迁移
多语⾔预训练模型具备了很好的跨语⾔迁移
能⼒,能否利⽤到神经机器翻译上?
设想:利⽤已训练好的多语⾔的预训练模型,实现零样本的神经机器翻译。
上图展⽰了没有任何训练数据⽀持的情况下,直接翻译。
什么是零样本翻译?
训练:⼀个语⾔对,⽐如德语→英语
建模:统⼀的机器翻译模型,跨语⾔转换
测试:零样本(Zero-shot),使⽤看没见过的语⾔,⽐如⽇语→英语
针对上述任务,我们提出了新的两阶段微调⽅法。
1. 零样本的两阶段微调(two-stage fine-tuning)⽅法
第⼀阶段:
固定编码器&嵌⼊解码器的参数
- 最⼤程度的保留预训练模型⾃带的跨语⾔迁移能⼒
微调解码器层
- 在这基础上,我们会⽤训练数据集中的双语数据微调解码器层,使解码器适应pretrained
第⼆阶段:
微调编码器层和解码器
- 进⼀步fine-tuning,提梁祝简谱钢琴
升翻译质量。我们的⼤量实验发现这个策略最好。
去掉lf-attn残差连接
- 使编码器输出与语⾔和位置⽆关,进⼀步阻断project embedding 对encoder输出的影响,提⾼
整个模型的跨语⾔迁移能⼒。
两个阶段的切换时机:两阶段使⽤语料相同,第⼀阶段fine-tuning decoder layer模型收敛后,
放开更多的参数,就可以进⼊第⼆阶段。
2. 实验细节和结果
① 实验:利⽤多语⾔预训练模型,实现零样本的跨语⾔机器翻译
数据集:
在德语→英语平⾏数据集上训练
- WMT19 43M平⾏语料
在多语⾔→英语的语料上测试
- 包括:德语组,拉丁语组,斯拉夫组,乌拉尔族,突厥语组(德语(De),荷兰语(NI),西班⽛
语(Es),罗马尼亚语(Ro),芬兰语(Fi),⼟⽿其语(Tr),俄语(Ru),波兰语(PI))。
结果如下图:
以上可以得出结论:与已有模型相⽐,我们的预训练模型只要较少的数据,就可以达到不错的
效果,不需要⼤规模的训练数据。
② 实验:语⾔相迁移能⼒与相关性
使⽤不同的语⾔训练:德语(De),西班⽛语(Es),印地语(Hi)
在不同的语族上测试:德语族(De, NI),罗马语族(Es, Ro, It),印度雅利安
族 (Hi, Ne, Si, Gu)。
由上图数据可以得出结论:
相似语⾔间⽐距离较远的语⾔之间,神经机器翻译(NMT)的迁移能⼒更强;
⼀个语族中的⼀个语⾔可以帮助族中的其他语⾔,将来的机器翻译中,⼀个语族只要⼀个语⾔
能实现富资源的语⾔的翻译,就可以实现整个族中的语⾔的翻译,减少标注和训练成本。
06
结论
预训练的语⾔模型有助于机器翻译,主要有
两⽅⾯:
对多语⾔神经机器翻译的有监督学习,可提⾼学习效果;
提⾼机器翻译零样本的跨语⾔迁移能⼒,利⽤预训练模型⾃⾝的跨语⾔迁移能⼒,可帮助机器
翻译减少标注和训练成本。
通过⼤量实验(⽀持100种语⾔)验证,我们提出的预训练模型DeltaLM有很好的跨语⾔迁移能
⼒和⽂本⽣成能⼒,这些都能很⼤程度上改善机器翻译效果。
DeltalM模型有着与现有模型不同的架构,使⽤pretrained encoder,⼀个全新的decoder,充分
继承encoder的跨语⾔迁移能⼒。并且采⽤了新的预训练任务来更好地利⽤双语数据。
在多语⾔神经机器翻译中,我们使⽤了DeltaLM模型安全期怎么算最准确
,对其进⾏了微调,提出了two-stage fine-
tuning,减少对不同语⾔和位置的依赖,实现了跨语⾔翻译和零样本的迁移能⼒。