跨域预训练语言模型(XLM)

更新时间:2023-06-26 13:17:31 阅读: 评论:0

跨域预训练语⾔模型(XLM )
XLM来⾃于Facebook ai的论⽂《Cross-lingual Language Model Pretraining》。⽬前多数语⾔模型都是单语义(monolingual)模型,⽐如BERT、XLNET、google的T5等等。期望有⼀种语⾔模型可以实现多种语⾔的融合,然后在⼀种语⾔训练模型,通过XLM迁移到其他语⾔上。⽐如标注语料较多的英语,我们训练好EN-》DE的翻译模型,但是,像印地语这种⽐较少见的语⾔怎么训练它到DE的翻译呢?这种情况下通过XLM就可以实现印地语到英语的迁移,然后再翻译到DE的模型。
以上是XLM⼀个⼤致的描述。训练XLM使⽤两种⽅式:
1、⽆监督学习⽅式,仅仅依赖于各种语⾔的预料⽂本。
2、监督学习⽅式,使⽤平⾏语料的⼀个新的跨域语⾔模型。
我们通过XLM将任何句⼦编码到⼀个共享的embedding空间。之前很多⼯作达到这样的效果都需要⼤量的平⾏语料,也就是类似于翻译语料的东西。但是发现有些⼈提出的⽆监督机器翻译,不使⽤平⾏语料也可以获得较⾼的BLEU。所以XLM也借鉴了这种思想。接下来介绍XLM的三个重要组成部分:
其中的两个完全⽆监督⽅式学习,其中的⼀个需要平⾏语料(parallel ntences)也就是需要通过监督的⽅式学习。如果⽆特殊说明,我们默认有N中语⾔,代表中句⼦的数量。
1、共享分词词典
所有语⾔通过BPE(Byte Pair Encoding)创建共享词典,这样共享了⼀些词或者⼀些恰当的发⾳。学习BPE的时候,通过⼀定的概率在各个
语⾔的数据集上采样。然后将采样的这些句⼦串联起来。每⼀种语⾔的采样概率如下:
上⾯的,按照上⾯采样增加了低资源语⾔的tokens数量,避免了字典向⾼资源语⾔偏移。
2、因果语⾔模型(CLM)
CLM模型就是通过前⾯的序列预测当前词出现的概率。公式:。
3、掩码语⾔模型(MLM)
这个任务和BERT的处理⽅式类似,仍然是随机掩盖句⼦中15%的token,80%的时间使⽤[MASK]掩盖,
10%的时间从字典中随机挑选⼀个词,10%的时间保持不变。与BERT不同的是,输⼊不再是⼀个句⼦对,⽽是⼀个256的长句⼦,去除了BERT的NSP任务。
4、翻译语⾔模型(TLM)
CLM和MLM都是⽆监督学习⽅式,但是当存在平⾏语料时候,使⽤他们并不合适。这时候就需要翻译语⾔模型TLM(Translation
Language Modeling),TLM的引⼊可以提⾼XLM的效果。本⽂的TLM是MLM的⼀个扩展。我们将翻译语料对连接,然后在源语⾔和⽬标
语⾔中均做随机mask。如下图:
如上图所⽰,如果预测英语中的mask,模型既可以关注周围的英⽂单词,也可以关注法语的翻译,这样可以使得模型将英语和法语对齐。并且在预测某个MASK英语单词时候,如果英⽂信息不⾜以预测出这个单词,法语上下⽂可以辅助预测。为了便于对齐,mask法语时候,我们会对其中位置进⾏错开。
{C },i =1...N i n i C i α=0.5P (w ∣w ,...w −t 1t 1,θ)
5、跨域语⾔模型(XLM)
XLM的训练如果是纯⽆监督⽅式则,使⽤CLM、MLM。使⽤batch size为64,每个句⼦由连续的256个字符组成。每个batch的数据采样⾃同⼀种语⾔,采样概率公式和1中的类似,只是XLM使⽤有监督⽅式则是MLM结合TLM或者CLM结合TLM。
以上是XLM中使⽤到的关键技术。
Facebook的最新论⽂《Unsupervid Cross-lingual Reprentation Learning at Scale》中使⽤RoBERTa,其中相对于本⽂的改进就是MLM那块,⼀个是使⽤了动态masking技术。把预训练的数据复制10份,每⼀份都随机选择15%的Tokens进⾏Masking,也就是说,同样的⼀句话有10种不同的mask⽅式。
另⼀个是每次输⼊连续的多个句⼦,直到最⼤长度512。
还有就是batch size增加到了8k。逐步的近义词
使⽤更⼤容量的多语⾔⽂本数据集CommonCrawl data。训练时间更久。在各种迁移任务上⼜获得了state-of-art的效果。
接下来看看XLM怎么应⽤:
1、跨语⾔分类
计划书英文
⾸先看在多语⾔分类上的表现,这⾥使⽤数据集XNLI,它⾥⾯有15种不同的语⾔,包括英语、法语、西班⽛语、德语、希腊语、保加利亚
语、俄语、⼟⽿其语、阿拉伯语、越南语、泰语、中⽂、印地语、斯⽡希⾥语和乌尔都语。数据集中的部分⽰例如下:
这⾥的fine-tuning与bert的调优类似。取预训练模型最后⼀层的第⼀个隐状态送⼊线性分类器。我们⾸先利⽤XLM在英语NLI训练数据集
上进⾏调优,然后我们在其他语⾔上测试。测试结果如下:
α=0.7
这个表显⽰了两种类型的结果:⽆监督地利⽤单语义语料和利⽤平⾏语料的有监督MLM结合TLM。做了两种baline:TRANSLATE-TRAIN这⼀个是英语NLI训练数据集翻译成每种NLI,TRANSLATE-TEST是每个待测试的数据集翻译成英⽂。这⾥我们和什么决定命运
mBert(multilingual BERT)做对⽐。
最后⼀组是衡量跨语⾔迁移的效果,这⾥以Conneau的模型作为baline。可以看到XLM均获得⽐较⾼的提升。
2、⽆监督机器翻译
⽆监督机器翻译做了三组:
英语-》法语;
英语-〉德语;
英语-》罗马尼亚语。
汽水肉蒸多长时间
训练⽅法跟Lample提出⽅法⼀样。与仅查找词向量表不同,我们使⽤跨语⾔模型初始化整个模型。对于编码器和解码器,我们考虑使⽤不同⽅式的初始化⽅法:CLM预训练,MLM预训练,随机初始化。这样的话就有九种对⽐实验。以使⽤跨语⾔词向量(EMB)作为baline。
3、监督学习翻译
监督学习对⽐了罗马尼亚语和英语的翻译效果。
英语口语900句
分为三组:
罗马尼亚语翻译成英⽂
罗马尼亚语与英⽂互翻
hp抗体使⽤反向翻译技术的罗马尼亚语与英语翻译,模型在训练语⾔模型时候使⽤单语语料。
4、低资源语⾔模型
这⾥以尼泊尔语为例,这种语⾔在维基数据上只有100K句话,⼤约是海地语的6倍。Nepali和Hindi之间字母表上有很⼤重叠,语⾔关系⽐较近,⽽跟英语之间则关系不⼤,所以引⼊英语对于Nepali带来的提升没有引⼊Hindi带来的提升多。
5、⽆监督跨域词嵌⼊
属蛇和属虎的合不合这⾥对⽐了三种⽅法:MUSE(facebook在2017年提出的⼀种语⾔模型)、Concat、XLM。三种评估⽅法:词翻译之间的cosine相似度、L2距离。还有⼀种新的评估跨语⾔cosine相似度⽅法SemEval’17。实验发现XLM表现依然⾮常好。

本文发布于:2023-06-26 13:17:31,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1055775.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   翻译   训练   语料   监督   采样
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图