Transform模型Elmo(基于LSTM)
Attention模型
例
attention
例
1. 隐藏层:
2. on timestep t,we have decoder hiden state
3. 可以得到sttention score for thie step
4. we take softmax to get the attenion distribution for this step
5. we u to take a weighted sum of the encodet hidden states to get the attention output
6. finally we conctenate the attention output with the decodet hidden state and proceed as in the non-attention
q2q model
Self Attention 模型特殊儿童
系统讲解
⾸先该模型是⼀种⾃编码的⽅法,且为每个Embedding构建了三个向量:Queries向量即问题向量;Keys向量即被查询问题的向量;Values向量即该问题本⾝,其获取过程如下:
图:
我们将乘以的权重矩阵得到新向量,就是query的向量。同理可得key,value的向量表⽰形式。
编码过程
印尼旅游
书画展览活动策划其编码过程如下图所⽰:
h ,h ,⋯,h 12N
s t
e t e =t [s h ,⋯,s h ]
t T 1t T
N a t a =t softmax (e )
t a t a t
a =t a h i =1∑N i t
i a t s t [a ,s ]
t t X 1W Q q 1q 1
Matrix Calculation of Self-Attention
为了加快计算,该模型可以通过矩阵⽅式获取,如下图所⽰:
1. 计算Query,Key和Value矩阵(scaled dot-product attention)
此处X中的⼀⾏对应输⼊中的⼀个单词,上⽂中使⽤4个⽅格代表⼀个单词。
2.
计算Self-Attention层的输出
Multihead
电信宽带提速
Multihead可以理解为多层注意⼒模型,只是需要将多个结果连接()并压缩(W_0[
])即可
Positional Encoding
Z ,Z ,⋯01Z ,Z ,⋯01
使⽤Self-Attention⽅式进⾏编码时⽆法处理以下的顺序问题:
我从北京到上海
我从上海到北京
大课间活动实施方案
上述两个语句进⾏编码时,第⼀句的北京与上海两个词的编码与第⼆句的北京与上海两个词的编码会完全相同,但这两个语句中的两个地点代表着不同的含义:起始位置、终点位置。为了解决此问题,进⾏⾃编码时在输⼊层引⼊了⼀个位置编码,如下所⽰:
编码过程:
position_encoding = np.array(
[[pos / np.power(10000, 2.0 * (j // 2) / d_model) for j in range(d_model)] for pos in range(max_q_len)])
position_encoding[:, 0::2] = np.sin(position_encoding[:, 0::2])
position_encoding[:, 1::2] = np.cos(position_encoding[:, 1::2])
与输⼊计算过程如下:
蒜苗儿
Transformer 结构
结构
Transformer由两部分组成:⼀个Encoder和⼀个Decoders。进⼀步剖析,发现每个Encoder中分别由6个Encoder组成。⽽
每个Decoder中同样也由6个Decoder组成,如下图所⽰:PE (pos ,2i )=sin (pos ÷10000)安全教育一分钟
2i /d model PE (pos ,2i +1)=cos (pos ÷10000)
2i /d model
杭州断桥残雪