关系抽取(relationextraction)综述

更新时间:2023-06-04 00:13:40 阅读: 评论:0

关系抽取(relationextraction)综述
关系抽取的定义
关系抽取就是从⼀段⽂本中抽取出**(主体,关系,客体)**这样的三元组,⽤英⽂表⽰就是(subject, relation, object)这样的三元组。所以关系抽取,有的论⽂也叫作三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:
1. 识别⽂本中的subject和object(实体识别任务)
2. 判断这两个实体属于哪种关系(关系分类)。
例如,给出如下的句⼦:刘翔,1983年7⽉13⽇出⽣于上海,中国男⼦⽥径队110⽶栏运⾏员。我们可以抽取出实体关系三元组实例 (刘翔,出⽣地,上海)。
关系抽取的现实意义:关系抽取可以为知识图谱的⾃动构建、搜索引擎、问答等下游任务提供⽀撑。
关系抽取的分类
1. 根据训练⽅式分类
根据训练模型的⽅式是全监督还是半监督,可分为全监督的关系抽取和远程监督关系抽取。
全监督关系抽取
全监督关系抽取任务并没有实体识别这⼀⼦任务,因为数据集中已经标出了subject实体和object实体分别是什么,所以全监督的关系抽取任务更像是做分类任务。模型的主体结构都是特征提取器+关系分类器。特征提取器⽐如CNN,LSTM,GNN,Transformer和BERT等。关系分类器⽤简单的线性层+softmax即可。
全监督关系抽取常⽤的数据集是 SemEval-2010 Task 8 datat,TACRED
经典论⽂:
1. Relation Classification via Convolutional Deep Neural Network. COLING 2014
2. Attention-Bad Bidirectional Long Short-Term Memory Networks for Relation Classification. ACL2016
3. Classifying Relations by Ranking with Convolutional Neural Networks. ACL2016
4. Graph Convolution over Pruned Dependency Trees Improves Relation Extraction. EMNLP2018
最新进展(2020以后)
1. Enriching Pre-trained Language Model with Entity Information for Relation Classification.
下雨造句2. Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers.
薄荷中药3. Downstream Model Design of Pre-trained Language Model for Relation Extraction Task.
男羊女鼠相配吗远程监督关系抽取
全监督关系抽取的弊端是需要⼈⼯标注,这样会耗费⼤量的⼈⼒物⼒。远程监督是通过已有的外部知识库来标注已有的⽂本数据。这种⽅法基于距离监督假设:如果知识库中的实体对之间存在关系,那么每个包含该实体对的⽂档都会表达该关系。⽐如只要⽂本中出现了中国和北京,就将这两个实体标注为⾸都这个关系,这显然是不正确。
城南旧事读书笔记摘抄远程监督假设是⼀个强假设并且会导致错误标签问题,即提到两个实体的句⼦不⼀定表达他们在知识库中的关系。因此⼀般都将远程监督关系抽取任务作为⼀个多⽰例学习问题来放宽假设 。
多实例学习:
乔特鲁德⽐如知识库中存在这样的三元组(A, C, B),有句⼦:[nt1, nt2, nt3, nt4],这个四个句⼦中都出现了(A,B)实体对,将这四个句⼦称为⼀个包(bag),这个包的标签是C。多⽰例学习是对包标签预测,⽽不是为每个句⼦预测关系标签。它假定,如果实体对存在关系,则包中⾄少有⼀个⽰例反映给定实体对的关系。
远程监督关系抽取常⽤的数据集是: NYT(53种关系)。
远程监督关系抽取,通常来说含有⼤量的噪声数据(也就是标错的数据),其主要任务是给数据集降噪。
经典论⽂:
1. Distant Supervision for Relation Extraction via Piecewi Convolutional Neural Networks. EMNLP2015
2. Neural Relation Extraction with Selective Attention over Instances. ACL2016
3. Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks. COLING 2016
4. DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. ACL18
最新进展(2019以后)
1. GAN Driven Semi-distant Supervision for Relation Extraction. NAACL19
2. Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervid Relation Extraction. ACL19
3. Cross-relation Cross-bag Attention for Distantly-supervid Relation Extraction. AAAI19
2. 根据模型是pipeline还是joint分类
前⾯提到关系抽取的两个主要任务就是实体识别和关系分类,pipeline⽅法是将两个任务分离开来分别进⾏,先进⾏实体识别,再进⾏关系分类。这样存在的问题是会存在误差传播的情况,也就是实体识别的误差会影响到后⾯的关系分类任务,但是关系分类任务却⽆法对实体识别造成的误差进⾏优化。为了解决这个问题,⽬前各种joint⽅法正在兴起。
pipeline ⽅法
妈妈的微笑
经典论⽂:
joint⽅法
常⽤数据集:NYT(24种关系),WebNLG
经典论⽂:
手机拍摄技巧视频教程1. Joint Extraction of Entities and Relations Bad on a Novel Tagging Scheme. ACL2017
汉广陵王墓2. Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism. ACL2018
最新进展(2020以后)
1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. ACL2020
2. TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking
3. Joint Entity and Relation Extraction with Set Prediction Networks
未完待续。

本文发布于:2023-06-04 00:13:40,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/853586.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   抽取   监督   实体   任务   远程   数据   分类
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图