知识图谱最新论⽂清单(附论⽂解读)
精选 6 篇来⾃ EMNLP 2018、ISWC 2018、NAACL 2018、ACL 2018 和 IJCAI 2018 的知识图谱相关⼯作,带你快速了解知识图谱领域最新研究进展。
EMNLP 2018
■ 论⽂解读 | 康矫健,浙江⼤学硕⼠,研究⽅向为知识图谱、⾃然语⾔处理
论⽂链接:
源码链接:
论⽂动机
当前知识库补全的⽅法主要是将实体和关系嵌⼊到⼀个低维的向量空间,但是却只利⽤了知识库中的三元组结构 (<s,r,o>) 数据,⽽忽略了知识库中⼤量存在的⽂本,图⽚和数值信息。
本⽂将三元组以及多模态数据⼀起嵌⼊到向量空间,不仅能够使链接预测更加准确,⽽且还能产⽣知识库中实体缺失的多模态数据。
论⽂亮点如下:
通过不同的 encoders,将多模态数据嵌⼊成低维向量做链接预测;
cps推广
通过不同的 decoders,能够产⽣实体缺失的多模态数据。
模型
多模态数据的嵌⼊
1. 结构化数据:对于知识库中的实体,将他们的 one-hot 编码通过⼀个 denlayer 得到它们的 embedding;
2. ⽂本:对于那些很短的⽂本,⽐如名字和标题,利⽤双向的 GRUs 编码字符;对于那些相对长的⽂本,通过 CNN 在词向量上卷积和池化得到最终编码;造型烫图片
3. 图⽚:利⽤在 ImageNet 上预训练好的 VGG ⽹络,得到图⽚的 embedding;
4. 数值信息:全连接⽹络,即通过⼀个从的映射,获得数值的 embedding;
5. 训练:⽬标函数(cross-entropy):
解码多模态数据
1. 数值和类别信息:利⽤⼀个全连接⽹络,输⼊是已经训练好的向量,输出是数值和类别,损失函数是 RMSE(数值)或者 cross-entropy(类别);
2. ⽂本:利⽤ ARAE 模型,输⼊是训练好的连续向量,输出是⽂本;
3. 图⽚:利⽤ GAN 模型来产⽣图⽚。
实验
本⽂作者在 MovieLens-100k 和 YAGO-10 两个数据集上⾯引⼊了多模态数据,其中 MovieLens-100k 引⼊了⽤户信息⽂本,电影信息⽂本,电影海报;YAGO-10 也为实体引进了图⽚,⽂本,数值等信息。
链接预测
可以看到在引⼊了实体⽂本描述,图⽚和数值之后,利⽤之前的嵌⼊模型,达到了 SOTA 的效果。
⽣成多模态数据
可以看到,引⼊了多模态数据之后,产⽣出来的⽂本和图⽚的质量⽐起仅仅依靠知识库原本就存在的三元组信息产⽣的⽂本和图⽚的质量要⾼。
总结
本⽂的创新点是引⼊了多模态数据来做知识库中的链接预测和⽣成实体缺失的多模态数据。但是不⾜之处在于不知道到底引⼊的哪⼀部分多模态数据对最终的链接预测产⽣提升,以及产⽣的多模态数据质量不是很理想。这有待于后续⼯作的改进。
水调歌头教学设计
ISWC 2018
■ 论⽂解读 | 曹⼆梅,南京⼤学硕⼠,研究⽅向为知识图谱、知识融合
论⽂链接:佛山旅游攻略
源码链接:
信息抽取通常关注于抽取可辨识实体之间的关系,例如 <Monterey, locatedIn,California>。但是,除了说明具体实体之间的关系,⽂本中也经常含有计数信息,表明与某个实体有特定关系的对象的数量,⽽未提及具体对象本⾝,例如“California is divided into 58 counties”。这种计数量词可⽤于诸如查询应答,知识库管理等任务,但被先前的⼯作忽略了。
本⽂开发了第⼀个完整的从⽂本中提取计数信息的系统 CINEX,将知识库中的事实计数作为训练种⼦,采⽤远程监督的⽅法抽取⽂本中的计数信息。实验表明,在⼈⼯评估的 5 个关系上,CINEX 的平均抽取精度达到了 60%。在⼤规模实验上,对于 Wikidata 的 110 种不同关系,CINEX 能够断⾔ 250 万事实的存在,⽐这些关系现有的 Wikidata 事实多 28%。
概念
本⽂⽤ SPO 形式的计数语句(Counting Statement)来描述知识库中的计数信息,主要关注对于⼀个给定的 SP 对,参数 O 的数量。
计数语句的形式化表⽰为 <S, P, ∃n>,其中,S 是 subject,P 是 predicate,n 是⼀个⾃然数(包括 0)。例如,语句 “President Garfield has 7 children” 将表⽰成 <Garfield, hasChild,∃7>。在 OWL 描述逻辑中,上述语句的形式化描述如下:
⽅法
CINEX 的⽬标是解决⽂本中计数量词的抽取问题,问题定义如下:
CINEX 将知识库中已有的事实计数作为种⼦,采⽤远程监督的⽅法抽取⽂本中的技术信息。远程监督作为知识库信息抽取的主要⽅法,也是解决本⽂问题的⼀种相当⾃然的⽅法。
不过,⽤远程监督解决计数信息抽取,需要解决以下⼏点挑战:
北京各区分布图1. 种⼦质量:与通常意义下的 SPO 事实抽取不同,本场景下知识库的不完备不仅会导致训练种⼦数量的减少,还会导致系统地低估实际事实的数量。例如:知识库只知道特朗普的 3 个孩⼦,⽽实际上
特朗普有5个,这会导致系统奖励 “owns three golf resorts” 这样的模式,⽽惩罚 “his five children”。
2. 数据的稀疏性:对于很多关系,⽂本表达计数信息的⽅式相当稀疏且⾼度倾斜。例如,⼀般⼈的 children 很少被提及;对于⾳乐家来说,赢得的第⼀个格莱美奖通常⽐之后的获奖更多被提及,因此对“他/她的第⼀个奖项”的模式会被给予过度的重视。还有,⾳乐乐队的成员数量通常约为 4,这使得很难学习到乐队成员数量⾮常⼤或⾮常⼩的模式。
3. 语⾔多样性:计数信息可以⽤各种语⾔形式表达,如冠词(“has a child”),基数词(“has five children”),序数词(“her third husband”),表数量的名词短语(‘twins’,‘quartet’),表存在与否的副词(‘never’,‘without’)。
CINEX 针对上述挑战给出了对应的解决⽅法:鸡肉炒土豆
对于挑战 1,CINEX 通过将数量的匹配条件放宽到⽐知识库事实计数更⾼的值,同时将训练种⼦限制于知识库中信息更完备的流⾏实体来处理。对于挑战 2,CINEX 使⽤信息熵来度量 numbers,过滤掉不提供信息的 numbers。对于挑战3,CINEX 通过仔细整合中间结果来处理。
Fig.2 给出了 CINEX 系统的框架,系统将整体任务分为两个阶段:
1. 计数量词的识别
微信名特殊符号CINEX 将其建模为序列标注问题,对每⼀个句⼦操作并且针对每⼀个谓词P单独学习。⾸先通过检测⽂本中指⽰计数信息的术语(基数,序数和数值项等)预处理输⼊的句⼦,再⽤ CRF++ 模型以及 bidirectional LSTM-CRF 模型为每个感兴趣的谓词 P 学习⼀个序列标注模型,⽤于计数量词的识别。重大历史事件
2. 计数量词的合并
将第⼀阶段识别出的多个表⽰计数或者组合信息的中间结果,合并为对象数量的单个预测。
整合算法如下:
对需要组合的计数信息求和,可信度得分设为被组合信息中最⾼的值;
选择每⼀种计数信息的预测结果。对于基数词和数值项,选择⾼于设定阈值的计数信息中可信度得分最⾼的;对于序数词,不论可信度得分如何,总是选择可信度得分最⾼的;
根据计数信息类型排序,根据如下顺序选择最终结果。
实例
计数量词的识别