NLP领域的机器阅读理解⽅向的数据集总结
⼀、cloze-style(完形填空样式)
1N / Daily Mail数据集(英⽂)
出⾃论⽂Hermann et al., 2015的《Teaching machines to read and comprehend.》
这是⼀个使⽤启发式⽅法从CNN和Daily Mail新闻⽂章中创建的完形填空样式的阅读理解数据集(英⽂)。Clo-style表⽰必须推断出⼀个缺失的单词。在本例中,“问题”是通过从总结本⽂⼀个或多个⽅⾯的要点替换实体⽽创建的。⽤实体标记@entityn替换了Coreferent 实体,其中n是⼀个不同的索引。该模型的任务是根据相应⽂章的内容推断出项⽬符号中缺失的实体,并根据accuracy对模型进⾏评价。
这个数据集是nlp的机器阅读理解领域⽐较经典的数据集,很多机器阅读理论⽂提出的模型都使⽤了该数据集进⾏验证⽐较。
2.Children’s Book Test(英⽂)
来⾃论⽂[Hill et al., 2016]的《The goldilocks principle: Reading children’s books with explicit memory reprentations.》
从⼀本⼉童读物中选出21个连续的句⼦。然后,将前20个句⼦视为上下⽂,问题就是为了推断第21个句⼦中缺少的单词。
3. ChiD(中⽂)
⼀个⽤于完形填空测试的⼤规模汉语成语数据集 ,有官⽅数据集和⽐赛数据集两个。
清明节的英语
数据集下载链接:
论⽂:
⽐赛链接:
4.The LAMBADA datat
香山枫叶论⽂:The LAMBADA datat: Word prediction requiring a broad discour context()
英⽂完形填空式数据集
数据集下载:
⼆、Muti-Choice(多项选择题)比萨斜塔为什么是斜的
1. MCTest(英⽂)
Richardson等⼈于2013年构建了⾃神经⽹络浪潮以来的第⼀个综合性阅读理解数据集MCTest,该数据集包含660个虚构故事,每个故事有4个问题和4个候选答案。
论⽂:Mctest: A challenge datat for the open-domain machine comprehension of text.
2.RACE(英⽂)
Lai等⼈于2017年收集了2万多篇⽂章和10万多道题⽬来⾃中国初⾼中学⽣的英语考试,涉及的领域⾮常⼴泛。这些问题是由专家提出的,最初是为了检验⼈类的阅读理解⽔平。因此,回答这个问题需要机器具备⼀定的推理能⼒。
论⽂:RACE: large-scale reading comprehension datat from examinations.
3. AI2 Reasoning Challenge (ARC)数据集(英⽂)油炸里脊
这是⼀个问题回答的英⽂考试数据集,其中包含7787个真正的⼩学⽔平的多项选择科学问题。 每个问题都有⼀个选择结构(通常是4个答案选项)。 这些问题被分为⼀个由2590个“困难”问题(检索和共现⽅法都不能正确回答的问题)组成的挑战集和⼀个由5197个问题组成的简单集。 每⼀个都预先划分为Train、Development和Test集。模型的评估基于accuracy。
获得ARC数据集⽹址:(公开⽹址)
4. CommonnQA(英⽂)
来⾃于ConceptNet,其包含⼤约12000个需要结合背景知识的问题。在该数据集中,标注者根据Conc马岛缟狸
eptNet中的实体概念来⾃由构造问题,来使问题包含⼈类所具有的、但难以在⽹络资源中检索到的背景知识,故回答问题需要利⽤问题、候选答案,以及仅仅使⽤检索策略⽆法检索到的背景知识。
三、Span-Prediction(⽚段抽取式)
1. SQuAD(英⽂)
由Rajpurkar等⼈《Squad: 100, 000+ questions for machine comprehension of text.》2016年提出的英⽂阅读理解数据
集。SQuAD数据集是问答题⽽⾮选择题,因此其没有候选答案可以参考,但是其限定了答案为原⽂中连续的⽚段。其包含的数据量⼤于体⼒劳动者在536个维基百科中发现了10万个问题。每个问题对应⼀个特定的段落,问题的答案位于段落的⼀个跨度上。基于⼩队的挑战极⼤地促进了MRC的繁荣。
Rajpurkar等⼈于2018年发布了SQuAD 2.0版数据集。SQuAD是⽬前阅读理解领域中最为经典的机器阅读理解英⽂数据集。许多优秀的论⽂或者SOTA模型(例如BERT)都是使⽤SQuAD数据集。
2. DuReader(中⽂)
3. DRCD(繁体中⽂)
DRCD是台达研究院发布的繁体中⽂阅读理解数据集,⽬标是从篇章中抽取出连续⽚段作为答案。我们在实验时先将其转换成简体中⽂。4.TriviaQA(英⽂)
包含超过650K个问题-答案-证据三元组。与其他数据集相⽐,TriviaQA在问题和相应的答案-证据句之间具有相当⼤的句法和词汇可变性,需要更多的跨句推理才能找到答案。
糖果品牌论⽂:Triviaqa: A large scale distantly supervid challenge datat for reading comprehension.
四、⽣成式阅读理解
1. NarrativeQA(英⽂)
[Kocisky ' et al., 2018]提出了NarrativeQA,⼀种更困难的数据集,旨在增加问题的难度,使其不容易找到答案。数据集包含1567个完整的图书和剧本故事。问题和答案是由⼈类书写的,⽽且⼤多是更复杂的形式,⽐如“当/哪⾥/谁/为什么”。
2.CoQA(英⽂)
对话式阅读理解数据集,这跟现实⽣活⼜近了⼀步,是现在研究的热点。CoQA包含约8000轮对话,问题的答案有五种类型,分别为Yes、No、Unknown,⽂章中的⼀个span和⽣成式答案。当根据⽂章
和之前的对话信息⽆法回答当前问题时,答案为Unknown。该数据集不仅提供答案,⽽且给出了答案的依据,每⼀种类型的答案的依据都是⽂章中的⼀个span。
杨有贤
可应⽤于⽚段抽取式和⽣成式阅读理解
五、其他形式
十二生肖操1. NLPCC2016-DBQA(中⽂)
六、Reference
[1] A Survey on Neural Machine Reading Comprehension
[2]
继续更新中。。。