首页 > 英文翻译

Embedding和Word2Vec用法

更新时间:2023-07-05 00:53:18 阅读：评论：0

Embedding和Word2Vec⽤法Embedding

Embedding 层的输⼊是⼀个⼆维整数张量，形状为(samples，quence_length)，即(样本数，序列长度)较短的序列应该⽤ 0 填充，较长的序列应该被截断，保证输⼊的序列长度是相同的

Embedding 层输出是(samples，quence_length，embedding_dimensionality) 的三维浮点数张量。

⾸先，我们需要对⽂本进⾏分词处理，然后对分词结果进⾏序列化

再统⼀输⼊的序列长度，最后把统⼀长度的序列化结果输⼊到 Embedding 层中

整个过程可以⽤下⾯的图描述：

学位英语考试网从样本的⾓度看，我们可以⽤下⾯的图描述这个过程：

gensim库提供了⼀个word2vec的实现，我们使⽤⼏个API就可以⽅便地完成word2vec

gensim实现Word2Vec

北大青鸟电脑培训

⽰意代码如下：

from torch import nn

dels import Word2Vec

# w2v模型位置

w2v_path = "model/del"

class Preprocess():

def __init__(lf,ntences,n_len,w2v_path=w2v_path):

lf.w2v_path = w2v_path

~~lf.n_len = n_len~~

~~lf.idx2word = []~~

~~lf.word2idx = {}~~

~~lesspressurebetterlife~~

~~def get_w2v_model(lf):~~

~~# 把之前保存的w2v模型加载进来~~

~~def add_embedding(lf,word):~~

~~# 把word加进embedding 并赋值⼀个随机向量~~

~~vector = pty(bedding_dim) #return a tensor filled with uninitialed dada. shape is (1*embedding_dim) #从均匀分布U(a,b)中⽣成值，填充参数vector，默认a=0,b=1~~

~~lf.word2idx[word] = len(lf.word2idx) #为word2idx字典填充后，word2idx长度会加1~~

~~lf.idx2word.append(word)~~

~~print("word:",word)~~

~~# torch.cat是将两个张量(tensor)拼接在⼀起按维数0拼接(竖着拼)~~

~~print("embedding_matrix.shape",lf.embedding_matrix.shape)~~

~~def make_embedding(lf,load=True):~~

~~print("get embedding..")~~

~~#加载embedding模型~~

~~if load:~~

~~print("加载word to vec模型")~~

~~<_w2v_model()~~

~~el:~~

~~rai NotImplementedError~~

~~# 制作⼀个word2idx的字典~~

~~# 制作⼀个idx2word的list~~

~~# 制作⼀个word2vector的list~~

~~for i,word in bedding.wv.key_to_index ):~~

~~print('get words #{}'.format(i+1), end='\r')~~

~~# 例：lf.word2idx['李']=1~~

~~# lf.idx2word[1]='李'~~

~~休息的意思# lf.vector[1]='李'~~

~~lf.word2idx[word]=len(lf.word2idx)~~

~~lf.idx2word.append(word)~~

~~autopatch~~

~~# 将embedding_matrix转为tensor类型~~

~~# 将PAD和UNK加⼊embedding中~~

~~lf.add_embedding("<PAD>")~~

~~lf.add_embedding("<UNK>")~~

~~print("total words: {}".format(bedding_matrix)))~~

~~bedding_matrix~~

~~def pad_quence(lf,ntence):~~

~~# 将每个句⼦变成统⼀的长度winsys~~

~~日语培训if len(ntence)>lf.n_len:~~

~~no church in the wild~~

~~ntence = ntence[:lf.n_len] #截断~~

~~el:~~

~~pad_len = lf.n_len-len(ntence)~~

~~for _ in range(pad_len):~~

~~ntence.append(lf.word2idx["<PAD>"])~~

~~asrt len(ntence)==lf.n_len~~

~~return ntence~~

~~def ntence_word2idx(lf):~~

~~# 把句⼦⾥⾯的字转成对应的index~~

~~ntence_list = []~~

~~for i,n in s):~~

~~print('ntence count #{}'.format(i+1), end='\r')~~

~~ntence_idx = []~~

~~for word in n:~~

~~if(word in lf.word2idx.keys()):~~

~~ntence_idx.append(lf.word2idx[word])~~

~~el:~~

~~ntence_idx.append(lf.word2idx["<UNK>"])~~

~~# 把每个句⼦长度统⼀焦虑烦躁~~

~~ntence_idx = lf.pad_quence(ntence_idx)~~

~~ntence_list.append(ntence_idx)~~

~~return torch.LongTensor(ntence_list)~~

~~def labels_to_tensor(lf,y):~~

~~#把标签label也转为tensor~~

~~y = [int(label) for label in y]~~

~~return torch.LongTensor(y)~~

~~def train_word2vec(x):~~

~~# 训练word embedding~~

~~"""~~

~~Embedding 层的输⼊是⼀个⼆维整数张量，形状为(samples，quence_length)，即(样本数，序列长度)~~

~~Embedding 层输出是(samples，quence_length，embedding_dimensionality) 的三维浮点数张量。~~

~~"""~~

~~model = word2vec.Word2Vec(x,vector_size=250,window=5,min_count=5,workers=12,epochs=10,sg=1) #iter is epochs return model~~

~~凳子的英文~~

本文发布于:2023-07-05 00:53:18，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/167311.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：Approximation algorithms for 2-stage stochastic optimization problems

下一篇：基于信息熵的高维稀疏大数据降维算法研究

标签：长度序列模型填充转为加载分词参数

相关文章

留言与评论（共有 0 条评论）

验证码：

推荐文章

排行榜

闽教版小学英语五年级下册知识点 (2)
闽教版小学英语五年级下册知识点Unit 1一、单词与词组was am,is 得过去式 were are 得过去式 China 中国went go得过去式 parent 父，母；家长 hometown 故乡took take 得过去式 tour 旅行；旅游&nbs

127℃小学五年级英语知识点

148℃tidy的同义词是什么

107℃Unit6Topic2Myhomeisinanapartmentbuilding.

100℃BIM入门—你应该知道的

145℃suspect的用法和短语例句意思是什么

127℃英语enough是什么中文意思

126℃独辟蹊径是什么意思

287℃guess是什么意思guess的中文释义及用法

104℃英语none的中文是什么意思 (细选2篇)

热门标签

最新

工作总结

句子

范文

成语

的是

形容

工作计划

工作

的人

三篇

演讲稿

学生

[db:tag]

心得体会

没有

优秀

老师

简短

自己的

有哪些

妈妈

教师

大全

中国

公司

学习

学校

小学

作文

五篇

合同范本

时间

孩子

内容

反义词

大家

什么意思

模板

都是