知识图谱(七)——事件抽取

更新时间:2023-05-25 02:47:42 阅读: 评论:0

知识图谱(七)——事件抽取
⽂章⽬录
⼀、任务概述勤劳怎么写
1、事件的定义
没有统⼀的定义,在知识图谱领域,⾃动内容抽取(ACE)评测会议中对事件的定义如下:
事件是发⽣在某个特定的时间点或时间段、某个特定的地域范围内,由⼀个或多个⾓⾊参与的⼀个或多个动作组成的事情或状态的改变。
2、事件抽取的定义
研究:如何从描述事件信息的⽂本中抽取出⽤户感兴趣的事件信息并以结构化的形式呈现出来。重点在从⾮结构化⽂本中进⾏事件抽取。过程:⾸先从⾮结构⽂本中识别出事件及其类型,然后抽取出该事件所涉及的事件元素。
相关概念:
事件指称(event mention):对⼀个客观发⽣的具体事件进⾏的⾃然语⾔形式的描述,通常是⼀个句⼦或句群。同⼀事件可有不同的事件指称、在⽂档中分布的位置也不同、或分布在不同对的⽂档中。
事件触发词(event trigger):⼀个事件指称中最能代表事件发⽣的词,是决定事件类别的重要特征。⼀般是动词或是名词。
事件元素(event argument):指事件中的参与者,是组成事件的核⼼部分,它与事件触发词构成了事件的整个框架。
主要由实体、事件和属性值组成,这些短语可作为表达完整语义的细粒度单元,可表⽰事件参与者。
注意:并不是所有的实体、事件和属性值都是事件元素,要根据具体上下⽂语义环境确定。
元素⾓⾊(argument role):事件元素与事件之间的语义关系,即事件元素在相应的事件中扮演什么⾓⾊。
事件类别(event type):事件元素和触发词决定了事件的类别。很对测评和任务都为事件制定了类别,每个类别下⼜定义类若⼲⼦类别并为每个事件⼦类别制定了模板,⽅便事件元素的识别及事件⾓⾊的判定。
3、相关评测和语料资源
MUC会议(Message Understanding Conference,消息理解会议)
TDT会议(Topic Detection and Tracking,话题识别与跟踪):以事件的形式组织新闻事件,对其进⾏研究与评测。
话题(Topic)是TDT中的最基本的概念,⼀个话题是指由某种原因引起的,发⽣在特定时间点或时间段,在某个地域范围内,并可能导致某些必然结果的⼀个事件。
事件 vs 话题:起初含义相同,后来话题含义为包括⼀个核⼼事件以及与之直接相关的事件的集合。
TDT的五个⼦任务:新闻报道切分、新事件识别、报道关系识别、话题识别、话题跟踪。
ACE会议(Automatic Context Extraction,⾃动内容抽取):ACE的事件是预定义类型的、句⼦级的事件,语料中标注事件的类型、触发词、事件元素及其在事件中扮演的⾓⾊。
使⽤最⼴泛:ACE2005事件语料数据集宁愿错过
ACE中将事件定义为⼀个动作的发⽣或状态的改变。事件包含事件触发词和事件元素两部分。ACE中定义8⼤类23⼩类事件类型。
ACE语料的标注格式采⽤XML⽅式,每个事件都标注了事件触发词、事件类型、事件⼦类型、事件元素和事件元素扮演的⾓⾊信息,此外还有四种属性:
事件的极性(polarity):表⽰肯定的事件 或 表⽰否定的事件
事件的时态(ten):过去发⽣的事件、正在发⽣的事件、将来即将发⽣的事件,以及⽆法确定时态的事件
事件的指属(genericity):特指(specific)事件 和 泛指(generic)事件
事件的形态(modality):语⽓⾮常肯定(asrted)的事件 和 信念事件(believed event)、假设事件(hypothetical
event)等
KBP会议(Knowledge Ba Population):研究从⾃然语⾔⽂本中抽取信息,并且链接到现有知识库的相关技术。
BioNLP会议:从⽣物医学⽂献中抽取出事件触发词、事件类型和事件元素等⽣物事件信息。
TimeBank语料库:⾯向问答系统的时间和事件的识别会议
雨的四季作者等等
⼆、限定域事件抽取
按照事件类别⽅式不同,可分为:
限定域事件抽取:在抽取之前,预先定义好⽬标事件的类别及每种类型的具体结构(包含哪些事件元素)。
根据抽取⽅法的不同,可分为:基于模式匹配的⽅法、基于机器学习的⽅法
开放域事件抽取
1、基于模式匹配的事件抽取⽅法
基于模式匹配的事件抽取⽅法:对某种类别事件的识别和抽取是在某⼀些模式的指导下进⾏的,匹配的过程就是事件识别和事件抽取的过程。
过程:模式获取 和 模式匹配。模式准确性尤为重要。
1)有监督的事件模式匹配
模式的获取完全基于⼈⼯标注的语料,学习效果⾼度依赖⼈⼯标注效果。
步骤:
语料的⼈⼯标注:需⼈⼯预先标注⼤量的语料。
模式的学习:通过各种学习模型⽅法得到相应的抽取模式。
模式的匹配:利⽤学习得到的模式与待抽取⽂档进⾏匹配,进⽽完成事件抽取。
典型系统:AutoSlog、PALKA模式抽取系统
2)弱监督的事件模式匹配
不需要对语料完全标注,只需要⼈⼯对语料进⾏⼀定的预分类或者制定少量种⼦模式,由机器根据预分类语料或者种⼦模式⾃动学习事件模式。
步骤:
语料的⼈⼯预分类或种⼦模式的制定
模式的学习:利⽤机器根据预分类语料或者种⼦模式⾃动学习事件模式。
典型系统:AutoSlog-TS系统、ExDisco系统、GenPAM系统、NEXUS系统
3)优缺点:女神用英语怎么说
在特定领域中性能较好。
然⽽,依赖于⽂本的具体形式,获取模板的过程费时费⼒,具有很强的专业性,⽽且制定的模式很难覆盖所有的事件类型,当语料发⽣变化时,需要重新获取模式。
可移植性不强,召回率低。
2、基于机器学习的事件抽取⽅法
根据所需监督数据不同,可分为:有监督事件抽取⽅法 和 弱监督事件抽取⽅法
1)有监督事件抽取⽅法
步骤:
训练样本的表⽰。eg:基于特征向量⽅法中特征向量的抽取与构建
选择分类器并训练模型,优化参数。
未标注数据中事件抽取。
(1)基于特征⼯程的⽅法
需显式地将 事件实例 =》特征向量(如何提取具有区分性的特征)
步骤:
特征抽取:提取词汇、句法和语义等特征并收集起来,产⽣描述事件实例的各种局部和全局特征。
模型训练:训练分类器
事件抽取:⽤分类器对⾮结构化⽂本进⾏分类,进⽽完成事件抽取
典型⽅法:2006年,Ahn提出的⼀个两阶段的多分类问题。
事件触发词的特征:
词汇特征:词汇,词汇⼩写形式,词⼲,词性标签,相邻词特征
句⼦级特征:依存路径,依存词汇,候选词在依存树的深度,依存词汇的词性标签,句⼦中的实体类型,最近距离范围内的实体类型等外部知识:在wordnet中的同义词id
事件元素分类的特征:
触发词特征
词汇特征
句⼦级特征
不⾜:
过程过分依赖词性标注器、句法分析器等传统的NLP⼯具 ==》造成累计误差
很多语⾔没有NLP⼯具
(2)基于神经⽹络的⽅法
步骤:
特征表⽰:将纯⽂本表⽰为分布式特征信息,eg:词表⽰为词向量。
神经⽹络的构建与⾼层特征学习:涉及搭建神经⽹络模型并基于基本特征⾃动捕获⾼层特征。
模型训练:利⽤标注数据,优化⽹络参数,训练⽹络模型。
模型分类:利⽤训练的模型对新样本进⾏分类,进⽽完成事件抽取。
典型⽅法:2015,动态多池化卷积神经模型,该⽅法将事件抽取当作⼀个⼆阶段的多分类问题,第⼀阶段为触发词抽取,第⼆阶段为元素抽取(更为复杂,以此为例进⾏说明)。
词向量学习:通过⾮监督信息得到每个词的向量化表⽰。
词汇级特征表⽰:利⽤词向量捕获词汇级语义。
将候选词(候选触发词和候选事件元素)的词向量和候选词上下⽂的词向量拼接起来作为事件元素抽取段的词汇级表⽰。
句⼦级特征表⽰:利⽤动态多池化CNN学习句⼦内部的组合语义特征。
为了处理⼀句话有多个事件的情况,利⽤动态多池化技术,根据触发词和候选元素动态地捕获⼀个句⼦中的事件信息。
事件元素分类:利⽤Softmax分类器为每个候选事件元素计算扮演不同⾓⾊的概率。
模型训练:定义训练的⽬标函数,然后利⽤随机梯度下降等训练⽅法优化模型参数,进⽽训练整个⽹络的参数。为防⽌过拟合,可使⽤Adadelta等更新规则。创意手机壳
其他⽅法:联合循环神经⽹络进⾏事件抽取
2)弱监督事件抽取⽅法
阕怎么读有监督⽅法:⼈⼯标记数据耗时费⼒、⼀致性差,尤其在⾯向海量异构的⽹络数据时;
⽆监督⽅法:得到的事件信息没有规范的语义标签(事件类别、⾓⾊名称等)。
注射英语弱监督⽅法:为了得到规范的语义标签,需要给出具有规范语义标签的标注训练数据,与有监督⽅法不同,获得⼤规模标注语料(关键)的途径主要有两种:
利⽤ Bootstrapping ⽅法扩展语料。⾸先⼈⼯标注部分数据,然后⾃动扩展数据规模。与诚信有关的成语
利⽤ Distant Supervison ⽅法⾃动⽣成⼤规模语料。主要利⽤结构化的事件知识回标⾮结构化⽂本,获取⼤规模训练样本后完成事件的抽取。
(1)基于 Bootstrapping 的事件抽取
基本框架:
核⼼思想:⾸先利⽤⼩部分标记数据训练抽取模型,然后利⽤训练好的模型对未标注数据进⾏分类,从中选取⾼置信度的结果加⼊到训练数据中,再次训练分类器,上述过程反复迭代进⽽完成标注数据的⾃动扩充和事件的⾃动抽取。
现状:基于弱监督的事件抽取⽅法还处于起步阶段,迫切需要⾃动⽣成⼤规模的、⾼质量的标注数据法⼈⽅法来提升性能。
(2)基于Distant Supervison的事件抽取
基本框架:
核⼼思想:⾸先提出回标的假设规则(即 Distant Supervison),然后利⽤结构化事件知识去⾮结构化⽂本中进⾏回标,将回标的⽂本当作标注样本,然后利⽤标注的样本训练模型,进⽽完成事件的抽取。

本文发布于:2023-05-25 02:47:42,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/765821.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:事件   抽取   标注
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图