菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记(⼆)——介绍及分词数据部分请见上⼀篇⽂章:
官⽅基于了DuReader给了两个基线模型:( 和 ):
Match-LSTM是⼴泛应⽤的MRC模型,Match-LSTM为了在⽂章中找到答案,依次遍历⽂章,动态地将注意⼒权重与⽂章的每个标记进⾏匹配。最后,使⽤⼀个应答指针层来查找⽂章中的答案跨度。
BiDAF既使⽤了语境对问题的注意,⼜使⽤了问题对上下⽂的注意,从⽽突出了问题和上下⽂中的重要部分。然后,利⽤注意流层融合所有有⽤的信息,从⽽得到每个位置的向量表⽰。
每个模型分别给出了在百度的深度学习架构 和⾕歌的深度学习架构 中的实现,我主要阅读了其在TensorFlow中上的实现。
运⾏环境
我的运⾏环境如下表所⽰:
系统平台CPU内存GPU CUDA cuDNN Python tensorflow Ubuntu18.04411032G RTX 2080Ti10.07.4 37.4 2.0
怎么学习电脑
代码及数据集下载
代码的下载地址:
数据集下载地址:邓尼茨
代码下载后解压可以看到⽬录如下图所⽰:
数据集下载可以运⾏data/⽬录下的download.sh⽂件下载,可以直接下载原始数据和已经处理过的数据分别保存在data/raw/、
data/preprocesd/⽂件夹下,也可以⼿动从下载后解压到对应⽬录。
下载第三⽅依赖
bash download_thirdparty.sh
实习岗位
这个指令会⾃动下载评估代码并保存在utils/⽬录下。
分词
数据集下载后,运⾏基线系统前需要处理⼀下。中⽂⾃然语⾔处理的必不可少的处理过程是分词。最新的基线程序中,没找到关于分词的部分,为了保证完整性,我增加了分词的部分代码,使⽤的是jieba分词模型。分词需要对’question’,‘title’,‘paragraphs’,进⾏,将分词结果保存到’gmented_question’, ‘gmented_title’, ‘gmented_paragraphs’。
分词代码
为了便于理解,我们只对⼀⾏数据的分词进⾏展⽰。代码还是运⾏于jupyter notebook:
import json
怕冷吃什么药
import jieba
#读取数据
n =5
夸张f =open('./data/raw/ain.json','r',encoding='utf8')
for i in range(n):
line = f.readline()
f.clo()
sample = json.loads(line)
重视英文#分词函数
def g_word(text):
text_temp =list(jieba.cut(text))
return text_temp
#分割⼀个样本函数
def g_data(sample):
# 对answers和question进⾏分词
sample["gmented_answers"]=[g_word(answer)for answer in sample["answers"]]
sample["gmented_question"]= g_word(sample["question"])
for doc in sample["documents"]:
# 对每个篇章的title和paragraphs进⾏分词
doc["gmented_title"]= g_word(doc["title"])
doc["gmented_paragraphs"]=[g_word(para)for para in doc["paragraphs"]]
然后可以通过g_word、g_data函数分别对⽂本段、样例进⾏分词,如图:
冰心繁星春水
使⽤g_word对⽂本段进⾏分词:
会动的玩具
使⽤g_data对⼀个样本进⾏分词:
参考⽂献: