首页 > 美文鉴赏

理解GloVe模型（Globalvectorsforwordreprentation）

更新时间:2023-07-08 23:07:45 阅读：评论：0

理解GloVe模型（Globalvectorsforwordreprentation）理解GloVe模型

概述

模型⽬标：进⾏词的向量化表⽰，使得向量之间尽可能多地蕴含语义和语法的信息。

输⼊：语料库

输出：词向量

⽅法概述：⾸先基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量。

开始

统计共现矩阵

训练词向量

结束

统计共现矩阵

设共现矩阵为XX，其元素为Xi,jXi,j。

Xi,jXi,j的意义为：在整个语料库中，单词ii和单词jj共同出现在⼀个窗⼝中的次数。

举个栗⼦：

设有语料库：

i love you but you love him i am sad

这个⼩⼩的语料库只有1个句⼦，涉及到7个单词：i、love、you、but、him、am、sad。

如果我们采⽤⼀个窗⼝宽度为5（左右长度都为2）的统计窗⼝，那么就有以下窗⼝内容：

窗⼝标号中⼼词窗⼝内容

0 i i love you

1 love i love you but

2 you i love you but you

3 but love you but you love

4 you you but you love him

5 love but you love him i

6 him you love him i am

老婆过生日7 i love him i am sad

8 am him i am sad

9 sad i am sad

窗⼝0、1长度⼩于5是因为中⼼词左侧内容少于2个，同理窗⼝8、9长度也⼩于5。

以窗⼝5为例说明如何构造共现矩阵：

中⼼词为love，语境词为but、you、him、i；则执⾏：

Xlove,but+=1

产后丰胸忳郁邑余侘傺兮

Xlove,but+=1

Xlove,you+=1

Xlove,him+=1

Xlove,i+=1

使⽤窗⼝将整个语料库遍历⼀遍，即可得到共现矩阵XX。

使⽤GloVe模型训练词向量

模型公式

先看模型，代价函数长这个样⼦：

J=∑i,jNf(Xi,j)(vTivj+bi+bj−log(Xi,j))2

J=∑i,jNf(Xi,j)(viTvj+bi+bj−log(Xi,j))2

vivi，vjvj是单词ii和单词jj的词向量，bibi，bjbj是两个标量（作者定义的偏差项），ff是权重函数（具体函数公式及功能下⼀节介绍），NN 是词汇表的⼤⼩（共现矩阵维度为N∗NN∗N）。

可以看到，GloVe模型没有使⽤神经⽹络的⽅法。

模型怎么来的

那么作者为什么这么构造模型呢？⾸先定义⼏个符号：

Xi=∑j=1NXi,j

其实就是矩阵单词ii那⼀⾏的和；

Pi,k=Xi,kXi

条件概率，表⽰单词kk出现在单词ii语境中的概率；

ratioi,j,k=Pi,kPj,k

两个条件概率的⽐率。

作者的灵感是这样的：

蛋汤的做法提词作者发现，ratioi,j,kratioi,j,k这个指标是有规律的，规律统计在下表：

ratioi,j,kratioi,j,k的值单词j,k单词j,k相关单词j,k单词j,k不相关

单词i,k单词i,k相关趋近1 很⼤

单词i,k单词i,k不相关很⼩趋近1

很简单的规律，但是有⽤。

遗忘的思想：假设我们已经得到了词向量，如果我们⽤词向量vivi、vjvj、vkvk通过某种函数计算ratioi,j,kratioi,

j,k，能够同样得到这样的规律的话，就意味着我们词向量与共现矩阵具有很好的⼀致性，也就说明我们的词向量中蕴含了共现矩阵中所蕴含的信息。

设⽤词向量vivi、vjvj、vkvk计算ratioi,j,kratioi,j,k的函数为g(vi,vj,vk)g(vi,vj,vk)（我们先不去管具体的函数形式），那么应该有：

Pi,kPj,k=ratioi,j,k=g(vi,vj,vk)

即：

湖北课改Pi,kPj,k=g(vi,vj,vk)

Pi,kPj,k=g(vi,vj,vk)

即⼆者应该尽可能地接近；

很容易想到⽤⼆者的差⽅来作为代价函数：

J=∑i,j,kN(Pi,kPj,k−g(vi,vj,vk))2

周杰伦签名J=∑i,j,kN(Pi,kPj,k−g(vi,vj,vk))2

但是仔细⼀看，模型中包含3个单词，这就意味着要在N∗N∗NN∗N∗N的复杂度上进⾏计算，太复杂了，最好能再简单点。

现在我们来仔细思考g(vi,vj,vk)g(vi,vj,vk)，或许它能帮上忙；

作者的脑洞是这样的：

1. 要考虑单词ii和单词jj之间的关系，那g(vi,vj,vk)g(vi,vj,vk)中⼤概要有这么⼀项吧：vi−vjvi−vj；嗯，合理，在线性空间中考察两个向量的相似性，不失线性地考察，那么vi−vjvi−vj⼤概是个合理的选择；

2. ratioi,j,kratioi,j,k是个标量，那么g(vi,vj,vk)g(vi,vj,vk)最后应该是个标量啊，虽然其输⼊都是向量，那內积应该是合理的选择，于是应该有这么⼀项吧：(vi−vj)Tvk(vi−vj)Tvk。

3. 然后作者⼜往(vi−vj)Tvk(vi−vj)Tvk的外⾯套了⼀层指数运算exp()exp()，得到最终的

g(vi,vj,vk)=exp((vi−vj)Tvk)g(vi,vj,vk)=exp((vi−vj)Tvk)；

最关键的第3步，为什么套了⼀层exp()exp()？

套上之后，我们的⽬标是让以下公式尽可能地成⽴：

Pi,kPj,k=g(vi,vj,vk)

即：

Pi,kPj,k=exp((vi−vj)Tvk)

即：

Pi,kPj,k=exp(vTivk−vTjvk)

Pi,kPj,k=exp(viTvk−vjTvk)

即：

Pi,kPj,k=exp(vTivk)exp(vTjvk)

Pi,kPj,k=exp(viTvk)exp(vjTvk)

然后就发现找到简化⽅法了：只需要让上式分⼦对应相等，分母对应相等，即：

Pi,k=exp(vTivk)并且Pj,k=exp(vTjvk)

Pi,k=exp(viTvk)并且Pj,k=exp(vjTvk)

然⽽分⼦分母形式相同，就可以把两者统⼀考虑了，即：

Pi,j=exp(vTivj)

Pi,j=exp(viTvj)

本来我们追求：

Pi,kPj,k=g(vi,vj,vk)

现在只需要追求：

Pi,j=exp(vTivj)

Pi,j=exp(viTvj)

两边取个对数：

log(Pi,j)=vTivj

log(Pi,j)=viTvj

那么代价函数就可以简化为：

J=∑i,jN(log(Pi,j)−vTivj)2

J=∑i,jN(log(Pi,j)−viTvj)2

现在只需要在N∗NN∗N的复杂度上进⾏计算，⽽不是N∗N∗NN∗N∗N，现在关于为什么第3步中，外⾯套⼀层exp()exp()就清楚了，正是因为套了⼀层exp()exp()，才使得差形式变成商形式，进⽽等式两边分⼦分母对应相等，进⽽简化模型。

然⽽，出了点问题。

仔细看这两个式⼦：

log(Pi,j)=vTivj和log(Pj,i)=vTjvi

log(Pi,j)=viTvj和log(Pj,i)=vjTvi

log(Pi,j)log(Pi,j)不等于log(Pj,i)log(Pj,i)但是vTivjviTvj等于vTjvivjTvi；即等式左侧不具有对称性，但是右侧具有对称性。

数学上出了问题。

补救⼀下好了。

现将代价函数中的条件概率展开：

log(Pi,j)=vTivj

log(Pi,j)=viTvj

即为:

log(Xi,j)−log(Xi)=vTivj

log(Xi,j)−log(Xi)=viTvj

将其变为：

log(Xi,j)=vTivj+bi+bj

log(Xi,j)=viTvj+bi+bj

即添了⼀个偏差项bjbj，并将log(Xi)log(Xi)吸收到偏差项bibi中。

于是代价函数就变成了：

J=∑i,jN(vTivj+bi+bj−log(Xi,j))2

J=∑i,jN(viTvj+bi+bj−log(Xi,j))2

然后基于出现频率越⾼的词对⼉权重应该越⼤的原则，在代价函数中添加权重项，于是代价函数进⼀步完善： J=∑i,jNf(Xi,j)(vTivj+bi+bj−log(Xi,j))2

J=∑i,jNf(Xi,j)(viTvj+bi+bj−log(Xi,j))2

具体权重函数应该是怎么样的呢？

⾸先应该是⾮减的，其次当词频过⾼时，权重不应过分增⼤，作者通过实验确定权重函数为：

f(x)={(x/xmax)0.75,1,if x<xmaxif x>=xmax

f(x)={(x/xmax)0.75,if x<xmax1,if x>=xmax

到此，整个模型就介绍完了。

本文发布于:2023-07-08 23:07:45，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/1073584.html

上一篇：全数字式日期表示法

下一篇：（一）文本嵌入式表示方法实战（词、句和段落向量：Word2Vec，GloVe，Paragr。。。

标签：单词函数矩阵共现向量

留言与评论（共有 0 条评论）