开心一笑 经典笑话【⾃然语⾔处理】【对⽐学习】SimCSE :基于对⽐学习的句向量表⽰⼀、简介
学习通⽤句嵌⼊向量是⼀个NLP的基础问题。本⽂通过对⽐学习的⽅式实现了SOTA句嵌⼊向量。具体来说,论⽂提出了称为的对⽐学习框架,可以⽤于学习通⽤句嵌⼊向量。其中可以分为“⽆监督”和"有监督"。
在⽆监督中,仅使⽤dropout进⾏数据增强操作。具体来说,将同⼀个样本输⼊预训练编码器两次(BERT),由于每次的dropout是不同的,那么就会⽣成两个经过dropout后的句向量表⽰,将这两个样本作为“正样本对”。
通过实验发现,使⽤dropout进⾏数据增强好于其他常见的数据增强⽅法,例如:单词删除和替换。可以将dropout看作是最⼩的数据增强。
在有监督中,我们基于数据集来构造对⽐样本,从⽽实现有监督的对⽐学习。具体来说,论⽂将entailment样本作为“正样本对”,并将contradiction样本作为hard“负样本对”。实验表明,数据集对于学习句⼦表⽰特别有效。
论⽂进⼀步分析了两个指标,分别是:正样本对的alignment和表⽰空间的uniformity。证明了能够学习到更好的句⼦嵌⼊向量。
论⽂从理论上证明改善了uniformity,并将对⽐学习与近期发现的预训练词向量各向异性联系起来。
⼆、背景知识
1. 对⽐学习
2. Alignment 和Uniformity
苹果绿
Wang等⼈确定了对⽐学习的两个关键特性:alignment和uniformity,并提出了衡量这两个特性的评估指标。
2.1 Alignment
给定⼀个正样本对分布,alignment的⽬标就是计算正样本对嵌⼊向量的期望距离
其中,将样本转换为嵌⼊向量的编码器。直观来看,alignment越⼩越好。
2.2 Uniformity
uniformity⽤于衡量嵌⼊向量是否有良好的统⼀分布
其中,表⽰数据分布。越⼩,则两个随机样本的距离也就越⼤,整个样本的嵌⼊向量就会越分散。因此,越⼩越好。
三、⽆监督SimCSE
1. ⽅法
给定⼀个句⼦集合,并且令。使⽤独⽴的dropout作为掩码来进⼀步获得增强的正样本对。由于在标准的Transformer训练过程中,会有多个dropout掩码。因此,样本的嵌⼊向量⽣成表⽰为,其中是随机的dropout掩码。SimCSE(Simple Contrastive Sentence Embedding Framework)SimCSE SimCSE SimCSE SimCSE SimCSE NLI NLI SimCSE SimCSE p pos ℓ≜a lign E ∣∣f (x )−(x ,x )∼p +pos f (x )∣∣+2
f (x )ℓ≜uniform lo
g E e x ,y ∼p data −2∣∣f (x )−f (y )∣∣2
p data ℓuniform ℓuniform {x }i i =1m x =i +
x i h =i z f (x ,z )θi z
通过将相同的样本输⼊的编码器,并应⽤不同的dropout掩码,从⽽获得相同样本的不同增强样本。最终的对⽐损失函数为
其中,是随机采样batch的⼤⼩。
2. 不同数据增强⽅式的对⽐
dropout可以看做是数据增强的最⼩形式。
我们在数据集上⽐较了的dropout数据增强与常见数据增强技术。在这些实验中,语料是从中抽取的,且令且。在表2中可以看到,对⽐了常见的数据增强技术,例如:crop、word deletion和replacement等。这些数据增强技术的应⽤可以看着是,其中是⼀个在上的离散数据增强操作。
我们的实验发现,即使仅删除⼀个单词,也是对⽅法性能有显著影响的。没有任何⼀种离散数据增强⽅式由于dropout噪⾳。
3. dropout
进⼀步实验
twice怎么读
这部分的实验如表4所⽰。
SimCSE z ,z ′ℓ=i −log e ∑j =1N sim (h ,h )/τ
i zi i z j ′e
sim (h ,h )/τi zi i zi ′N STS-B Wikipedia N =512m =106h =f (g (x ),z )θg x
为了进⼀步研究dropout,论⽂尝试了不同dropout的⽐例,并发现默认的dropout⽐率是效果最好的。
在两个极端情况下:(没有进⾏dropout增强)和
(两个样本使⽤相同的dropout),性能会显著下降且结果相似。
图2中,分别⽐较了和两种极端情况,及删除⼀个单词⽅式的数据增强与在alignment和uniformity上的表现。可以发现所有的⽅法都能改善uniformity;
但是和情况下的alignment会急剧下降,但是标准的的alignment会⾮常的平稳;
“删除⼀个单词”的⽅式能够改善alignment,但是在uniformity上的效果没有好;
4.
instinctively其他实验设置的⽐较
论⽂⽐较了损失函数和对⽐损失函数,并⽐较了单个编码器和2个独⽴编码器的效果。实验结果如表3所⽰。
实验表明,对⽐损失函数显著优于,且单个编码器显著优于2个独⽴的编码器
四、有监督SimCSE
p =0.1p =0Fixed 0.1p =0Fixed 0.1SimCSE p =0Fixed 0.1SimCSE SimCSE next-ntence next-ntences
有监督主要的⽬标是利⽤有监督数据集来改善句嵌⼊向量表⽰。由于之前的研究已经证明了有监督⾃然语⾔推断(NLI)数据集对于学习句⼦嵌⼊向量⾮常有效。因此,在有监督中我们同样使⽤数据集来构造对⽐样本。
数据集中包含三种句⼦度关系,分别为:包含(entailment)、中⽴(neutral)、⽭盾(contradiction)。
1. 探索有监督数据集论⽂在各种句⼦对数据集上进⾏了实验,实验结果有:所有的有监督句⼦对数据集都好于⽆监督的⽅法,也就是有监督是有效的;
在所有数据集中,使⽤数据集中的entailment构造正样本对效果最好;
初步分析认为效果好的原因主要是,entailment样本对的词覆盖显著低于其他数据集;
2. 将contradiction 样本对作为“难”负样本对
为了进⼀步利⽤数据集,论⽂将contradiction样本对作为更加难的负样本对。
pasta在数据集中,通常会先给定⼀个前提(premi),然后标注者需要写出三个句⼦,分别是:⼀个正确的句⼦(entailment)、⼀个可能正确的句⼦(neutral)和⼀个绝对错误的句⼦(contradiction)。因此,对于每个前提(premi),都对应⼀个entailment句⼦和⼀个contradiction句⼦。
因此,在有监督中,将扩展⾄。其中,是前提(premi),和是entailment和contradiction。最终的训练⽬标定义为实验结果表明,添加这样的“难”负样本对能够进⼀步改善模型效果,这也是我们最终的有监督。
五、与Anisotropy 的关系
1. 各向异性问题(anisotropy)
最近的研究表明语⾔模型的表⽰具有各向异性(anisotropy)的问题,例如:学习到的嵌⼊向量出现在向量空间中的⼀个狭窄圆锥中,这极⼤的限制了表达能⼒。Gao等⼈称这个问题为“表⽰退化”问题。此
外,Wang等⼈的研究显⽰词嵌⼊矩阵的奇异值会急剧衰减。简单来说,除了少数奇异值外,其他奇异值都接近0。
2. 不同的解决⽅案⼀种解决⽅案是:后处理,通过消除主成分、或者将表⽰空间映射⾄各向同性(isotropic)分别中。
另⼀种⽅案是,在训练过程中添加正则约束。
3. 证明对⽐学习能够解决各向异性问题
headache怎么读
对⽐学习损失函数可以被近似为
造价师报名时间
其中,公式的第⼀项⽤于保证正样本对的相似,⽽第⼆项则是将负样本对的距离拉开。
SimCSE SimCSE NLI NLI NLI(SNLI+MNLI)NLI NLI NLI SimCSE (x ,x )i i +(x ,x ,x )i i +i −x i x i +x i −
ℓi −log (e +e )
∑j =1N sim (h ,h )/τi j +sim (h ,h )/τi j −
e sim (h ,h )/τi i +SimCSE −E [
f (x )f (x )]+τ1(x ,x )∼p +pos ⊤+E [lo
g E [e ]]x ∼p data x ∼p −data f (x )f (x )/τ⊤−(1)
(1)
当在有限样本集上均匀分布且,我们可以利⽤Jenn不等式来推断公式中的第⼆项
若令表⽰样本集的句嵌⼊矩阵(的第i⾏是)。那么最⼩化公式的第⼆项,本质上等于由于中所有元素之和的上界,因为其中,是标准化的向量,因此的所有对⾓线元素均为1。
由于Gao等⼈发现在绝⼤多数情况下,所有的元素都是整数。那么根据Merikoski的结论可以得知是最⼤特征值的上界。因此,可以推导出
最⼩化公式的第⼆项等价于最⼩化的上界;等价于最⼩化的上界;
等价于最⼩化的最⼤特征值上界;
也就是减⼩的最⼤特征值;
英语学习网因此,对⽐损失函数本质上拉平了嵌⼊空间的奇异值,改善了uniformity。六、实验
有/⽆监督能够极⼤的改善句嵌⼊的效果(句向量相似度代码句语义相似性);虽然改善了句嵌⼊,但是句嵌⼊并不能改善下游的迁移任务;
kimi是什么意思
使⽤来表⽰句向量的效果最好;
将作为辅助训练⽬标函数,可以改善模型在下游迁移任务上的效果;p data {x }i i =1m h =i f (x )i (1)E [log E [e ]]
x ∼p data x ∼p −data f (x )f (x )/τ⊤−=log (e )m 1i =1∑m
m 1j =1∑m h h /τi ⊤j ≥h h τm 21i =1∑m j =1∑m
英国留学读研i ⊤j W {x }i i =1m
W h i (1)WW ⊤Sum(WW )=⊤h h i =1∑m j =1∑m i ⊤j
h i WW ⊤WW ⊤Sum(WW )⊤WW ⊤
(1)h h τm 21∑i =1m ∑j =1m i ⊤j Sum(WW )⊤
WW ⊤WW ⊤SimCSE [CLS]MLM