关系抽取RE的⼀些最新论⽂解读(三)
⽂章⽬录
0. 引⾔
我们前⾯已经分别介绍了⽂档级的RE和多重关系的RE,在19年、20年的相关⼯作已经讲解了⼤约15篇论⽂,但是还有⼀些论⽂并不属于上联两个范畴,也是⼀些最新的并且参考价值⽐较⾼的论⽂,我们将在这个博客上整理这些⼯作,均为ACL、EMNLP、AAAI等顶会的19年/20年论⽂。
1. A General Framework for Information Extraction using Dynamic Span Graphs (NAACL2019)
1.1 摘要moa
我们为使⽤动态构造的span图共享span表⽰,来为信息提取任务提出了⼀个通⽤框架。这些图是通过选择最可信的实体范围,并⽤信任加权的关系类型和共指关系连接这些节点来构建的。动态span图允许在图中传播共引⽤和关系类型信任,以迭代地细化span表⽰。这与以前⽤于信息提取的多任务框架不同,在以前的多任务框架中,任务之间的惟⼀交互是在共享的第⼀层LSTM中。我们的框架在跨反映不同领域的多个数据集的多信息提取任务上显著优于最先进的技术。我们进⼀步观察到,跨度枚举⽅法擅长于检测嵌套的跨度实体,在ACE数据集上有显著的F1得分改进。
1.2 动机
1. 系提取(RE)涉及到在对跨越之间分配关系类型。协同引⽤解析组将对同⼀实体的引⽤扩展到⼀个集群中。因此,我们可能会认为从⼀
项任务中学到的知识可能会有益于另⼀项任务。
1.3 贡献
在本⽂中,我们介绍了⼀个通⽤框架动态图IE (DYGIE),⽤于通过共享跨度表⽰来耦合多个信息抽取任务**,这些跨度表⽰利⽤了来⾃关系和协引⽤的上下⽂化信息。我们的框架在⼏个领域中都是有效的,这说明了合并从关系和共引⽤注释中学到的更⼴泛的上下⽂的好处**。
DYGIE使⽤多任务学习,通过动态构造的跨度图共享跨度表⽰来识别实体、关系和关联。图中的节点从⼀束⾼度⾃信提及中动态选择,并根据关联类型或共引⽤的置信度分数对边缘进⾏加权。与只共享本地上下⽂中的跨度表⽰的多任务⽅法不同,我们的框架通过共引⽤和关系链接传播信息,利⽤了丰富的上下⽂跨度表⽰。
这篇论⽂有三⽅⾯的贡献。1)我们引⼊动态跨度图框架作为传播全局上下⽂信息的⽅法,使代码公开。2)我们证明联合实体和关系框架明显优于先进的检测任务在四个数据集。3)我们进⼀步表明,我
们的⽅法擅长检测实体与重叠的跨越,实现改进F1的8分在三个基准与重叠范围注释:王牌2004,ACE GENIA 2005和。
1.4 模型
在本节中,我们将概述DYGIE框架的主要组件和层,如图2所⽰。图的构造和细化过程将在下⼀节中详细介绍。
Token Reprentation Layer
我们在输⼊令牌上应⽤双向LSTM。每个token的输⼊是GLOVE字符表⽰,输出token表⽰是通过堆叠正向和反向LSTM隐藏状态获得的。Span Reprentation Layer
economicofscale
得到字符的编码后,⽤枚举的⽅式列举出所有可能的span,对于每个span 使⽤字符特征和宽度特征的拼接作为其向量表达。
Coreference Propagation
得到初始的span向量表⽰后,接下来先进⾏共指传播。Relation Propagation
共指传播后,再进⾏关系传播,关系传播的⽅式和共指传播类似。
Updating Span Reprentations with Gating
chinks为了计算下⼀个迭代的span表⽰,我们定义⼀个选门向量,以确定是否保留之前的跨度表,和是否来整合来⾃共参考或关系更新向量的新
信息。
Final Prediction Layer
我们利⽤关系图层的输出来预测实体标签E和关系标签r。对于实体,我们将传递给前馈⽹络预测实体信息;对于关系,我们将和的连接传递给⼀个FFNN,以产⽣每类关系得分。实体和关系分数跨标签空间标准化。对于共参照,从共参照图层输出中
计算跨度对之间的分数,然后对所有可能的前件进⾏归⼀化。
Training 1.5
实验结果
2. Entity, Relation, and EE with Contextualized Span Reprentations(emnlp2019)
2.1 摘要
我们为三个信息提取任务检查了⼀个统⼀的,多任务框架的能⼒:命名实体识别,关系提取,和事件提取。我们的框架(称为DYGIE++)通过枚举、精炼和评分⽂本范围来完成所有任务,这些⽂本范围旨在捕获本地(句⼦内)和全局(跨句⼦)上下⽂。我们的框架在来⾃不同领域的四个数据集上实现了所有任务的最新成果。我们通过实验⽐较不同的技术来构造跨度表⽰。像BERT这样的上下⽂化嵌⼊在捕获相同或相邻句⼦中实体之间的关系⽅⾯表现良好,⽽动态跨度图更新了远程交叉句⼦关系的模型。例如,通过预测的共引⽤链接传播跨度表⽰,可以使模型消除具有挑战性的实体提及的歧义。
2.2 动机
2.3 贡献
在本⽂中,我们研究了在⼀般的多任务IE框架中纳⼊全局上下⽂的不同⽅法,建⽴在先前基于spans的IE⽅法的基础上。我们的DYGIE++框架,如图1所⽰,枚举候选⽂本并使⽤上下⽂语⾔模型和通过⽂本范围图传递的特定于任务的消息更新对它们进⾏编码。我们的框架实现了三个IE任务的结果状态,利⽤了两种上下⽂化⽅法的好处。
2.4
模型
g i 0
g igooglefanyi
N +M g i N +M g N +M (g ,g )i N j N
Token encoding
使⽤BERT使⽤⽅法表⽰token
Span enumeration
通过连接表⽰⽂本左端点和右端点的标记,以及学习过的span-width嵌⼊,枚举并构造⽂本的span。
Span graph propagation
根据模型当前对⽂档中跨度之间关系的最佳猜测,动态⽣成⼀个图结构。根据图传播的三种不同形式,通过对图中相邻的跨度表⽰进⾏积分来更新每个span reprentation。在共指传播中,⼀个span在图中的邻居是它可能的共参前件。在关系传播中,邻居是句⼦中相关的实体。在事件传播中,有事件触发节点和事件参数节点;触发器节点将消息传递给它们可能的参数,⽽参数将消息传递回它们可能的触发器。整
日常英语口语个过程是端到端的训练。
Multi-task classification
托福报名考试⽤两层前馈神经⽹络(FFNN)作为评分函数。对于span gi的触发器和命名实体预测,我们计算。对于共指、关系和参数⾓⾊预测,我们将相关的嵌⼊对连接起来,计算。
technical writer
2.5
实验结果
3. CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning (aaai2020)
3.1 摘要
由于实体和关系的联合提取在两种任务中都具有较⾼的性能,因此受到了⼴泛的关注。在现有的⽅法中,CopyRE是⼀种有效且新颖的⽅法,它使⽤序列到序列的框架和复制机制直接⽣成关系三联。然⽽,它有两个致命的问题。该模型在区分头尾实体⽅⾯⾮常薄弱,导致实体提取不准确。它也不能预测多token实体(例如Steven Jobs)。针对这些问题,我们分析了实体提取不准确的原因,并提出了⼀种简单但⾮常有效的模型结构来解决这⼀问题。此外,我们提出了⼀个带有复制机制的多任务学习框架,称为CopyMTL,以允许模型预测多个token 实体。实验揭⽰了CopyRE的问题,并表明我们的模
型在NYT和WebNLG (F1得分)上取得了显著的改进,分别提⾼了9%和16%。
qt是什么4. Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction (aaai 2020)
5. Span-bad Joint Entity and Relation Extraction with Transformer Pre-
training (arxiv2019)
5.1 摘要
我们引⼊了⼀个⽤于基于span的联合实体和关系提取的关注模型SpERT。我们的主要贡献是对BERT嵌⼊的轻量级推理,其特征是实体识别和过滤,以及使⽤本地化的、⽆标记上下⽂表⽰的关系分类。该模型使⽤强句内负样本进⾏训练,这些负样本在单次BERT pass中被有效地提取出来。这些⽅⾯促进了对句⼦中所有跨度的搜索。在消融研究中,我们证明了预训练、强负采样和局部环境的好处。在联合实体和关系提取⽅⾯,我们的模型在⼏个数据集上的表现⽐之前的⼯作⾼出2.6% F1分。
5.2 动机
(g )i ([gi ,gj ])
这项⼯作研究了Transformer⽹络⽤于关系提取的使⽤,提出了⼀种以BERT为核⼼的联合实体和关系提取模型。采⽤基于span的⽅法:任何标记⼦序列(或span)构成⼀个潜在的实体,任何⼀对span之间都可以保持关系。
5.3 贡献
abd我们的贡献如下:
1. 提出了⼀种基于spans的联合实体和关系的提取⽅法。我们的⽅法看似简单但有效,始终⽐之前的⼯作多出
2.6%(关系提取F1得分)。
2. 我们调查了⼏个对我们的模型成功⾄关重要的⽅⾯,表明(1)来⾃同⼀个句⼦的负样本产⽣的训练既⾼效⼜有效,⽽且⾜够多的强负样
本是⾄关重要的。(2)局部上下⽂表⽰是有益的,特别是对于较长的句⼦。(3)我们还发现了对预训练模型进⾏微调,⽐从零开始训练的效果更好。
5.4
模型
Span Classification
lolz我们的span分类器采⽤⼀个任意的候选span作为输⼊。设表⽰这样⼀个张成空间。此外,我们假设E是⼀组预定义的实体类别,如person或organization。span分类器将span s映射到中的⼀个类。none表⽰不成⽴的跨度。
我们从⼀个专⽤的嵌⼊矩阵中查找⼀个宽度嵌⼊wk+1(蓝⾊),它包含⼀个固定⼤⼩的嵌⼊。这些嵌⼊是通过反向传播来学习的,并且允许
模型在跨度宽度上合并⼀个先验(注意跨度太长不太可能表⽰实体)。
最后,我们添加了分类器标记c(图1,绿⾊),它表⽰整个句⼦(或上下⽂)。上下⽂是消除歧义的⼀个重要来源,因为关键字(如spou或
said)是实体类(如person)的有⼒指⽰符。span分类器的最后输⼊是:
此输⼊输⼊softmax分类器,它为每个实体类(包括. none)⽣成⼀个后验值:
Span Filtering
通过查看得分最⾼的类,跨度分类器的输出估计了每个跨度属于哪个类。我们使⽤⼀种简单的⽅法过滤分配给none类的所有span,只留下⼀组spans,它们可能构成实体。注我们预先过滤跨度超过10个标记,将跨度分类的代价限制在O(n)。
Relation Classification
设R是⼀组预定义的关系类。关系分类器处理从S×S中抽取的实体的每个候选对(s1, s2),并估计是否存在来⾃R的任何关系。分类器的输⼊由两部分组成:
关联分类器的输⼊也是通过将上述特征连接起来得到的。注意-因为关系通常是不对称的-我们需要对(s1, s2)和(s2, s1)进⾏分类,即输⼊
变成:
给定可信阈值,任何与得分≥可测的关系都被认为是激活的。如果没有激活,则假设该句⼦表⽰两个实体之间没有已知的关系。
Training
我们使⽤所有标记实体Sgtas的正样本,加上⼀个固定数⽬的随机⾮实体跨度的Neof作为负样本。例如,鉴于判决“1913年,奥运传奇⼈物(杰西·欧⽂斯)出⽣在(奥克维尔,阿拉巴马州)。”我们会抽取负样本,⽐如" Owens “或” born in "
在训练关系分类器时,我们使⽤ground truth关系作为正样本,从那些没有标记任何关系的实体对S * S中提取Nrnegative样本。例如,给定⼀个包含两个关系(“Marge”,妈妈,“Bart”)和(“Bart”,⽼师,“Skinner”)的句⼦,没有连接的实体对
(“Marge”,*,“Skinner”)构成了任何关系的否定样本。我们发现,与随机跨度对抽样相⽐,如此强烈的负抽样是重要的。
5.5
实验结果
s =(ei ,ei +1,…,ei +k )E ∪none
6. Exploiting the Syntax-Model Consistency for Neural Relation Extraction(acl2020)
7. Few-shot relation extraction via bayesian meta-learning on relation graphs (icml2020)