【资讯】多模态知识图谱

更新时间:2023-06-09 17:53:45 阅读: 评论:0

【资讯】多模态知识图谱
知识图谱技术已经被⼴泛⽤于处理结构化数据(采⽤本体+D2R技术)和⽂本数据(采⽤⽂本信息抽取技术),但是还有⼀类⾮结构化数据,即视觉数据,则相对关注度较低,⽽且相缺乏有效的技术⼿段来从这些数据中提取结构化知识。最近⼏年,虽然有⼀些多模态视觉技术提出,这些技术主要还是为了提升图像分类、图像⽣成、图像问答的效果,不能很好地⽀撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源,并提供关于知识图谱中实体的充分视觉信息。显然,如果可以在在更⼤范围内进⾏链接预测和实体对齐,进⽽进⾏实体关系抽取,可以使现有的模型在综合考虑⽂本和视觉特征时获得更好的性能,这也是我们研究多模态知识图谱(multi-modal knowledge graph)的意义所在。
图1.多模态知识图谱的发展过程
多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究⽂本和数据库的实体和关系,⽽多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。例如在最新的⼀个多模态百科图谱Richpedia中(如下图2所⽰)[5],⾸先构建了图像模态伦敦眼图像与⽂本模态知识图谱实体(DBpedia实体:London eye)之间的多模态语义关系(rpo:imageof),之后还构建了图像模态实体伦敦眼与图像模态实体⼤本钟之间的多模态语义关系(rpo:nextTo)。
图2.Richpedia中的多模态实体与多模态语义关系
⼀、多模态知识图谱相关⼯作
大学四年规划
随着⼈⼯智能技术的不断发展,知识图谱作为⼈⼯智能领域的知识⽀柱,以其强⼤的知识表⽰和推理能⼒受到学术界和产业界的⼴泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了⼴泛的应⽤。其中在描述多媒体的可⽤数据集中,现有的⼯作重点是捕获多媒体⽂件的⾼级元数据(如作者、创建⽇期、⽂件⼤⼩、清晰度、持续时间),⽽不是多媒体内容本⾝的⾳频或视觉特性。以下会介绍⼏个重要的开源多模态知识图谱:
1. DBpedia[1]
DBpedia作为近⼗年来语义⽹研究的中⼼领域,其丰富的语义信息也将会成为今后多模态知识图谱的链接端点,其完整的本体结构对于构建多模态知识图谱提供了很⼤的便利。DBpedia项⽬是⼀个社区项⽬,旨在从维基百科中提取结构化信息,并使其可在⽹络上访问。DBpedia知识库⽬前描述了超过260万个实体。对于每个实体,DBpedia定义了⼀个唯⼀的全局标识符,可以将其解引⽤为⽹络上⼀个RDF描述的实体。DBpedia提供了30种⼈类可读的语⾔版本,与其他资源形成关系。在过去的⼏年⾥,越来越多的数据发布者开始建⽴数据集链接到DBpedia资源,使DBpedia成为⼀个新的数据web互联中⼼。⽬前,围绕DBpedia的互联⽹数据源⽹络提供了约47亿条信息,涵盖地理信息、⼈、公司、
电影、⾳乐、基因、药物、图书、科技出版社等领域。
2. Wikidata[2]
Wikidata中也存在⼤量的多模态资源,Wikidata是维基媒体基⾦会(WMF)联合策划的⼀个知识图谱,是维基媒体数据管理策略的核⼼项⽬。充分利⽤Wikidata的资源,主要挑战之⼀是提供可靠并且强⼤的数据共享查询服务,维基媒体基⾦会选择使⽤语义技术。活动的SPARQL端点、常规的RDF转储和链接的数据api是⽬前Wikidata的核⼼技术,Wikidata 的⽬标是通过创造维基百科全球管理数据的新⽅法来克服数据不⼀致性。Wikidata的主要成就包括:Wikidata提供了⼀个可由所有⼈共享的免费协作知识库;Wikidata已经成为维基媒体最活跃的项⽬之⼀;越来越多的⽹站在浏览页⾯时都从Wikidata获取内容,以增加⼤数据的可见性和实⽤性。
3. IMGpedia[3]
晨咳IMGpedia是⼀个⼤型的链接数据集,它从Wikimedia Commons数据集中的图像中收集⼤量的可视化信息。它构建并⽣成了1500万个视觉内容描述符,图像之间有4.5亿个视觉相似关系,此外,在IMGpedia中单个图像与DBpedia之间还有链接。IMGpedia旨在从维基百科发布的图⽚中提取相关的视觉信息,从Wikimedia中收集所有术语和所有多模态数据(包括作者、⽇期、⼤⼩等)的图像,并为每张图像⽣成相应的图像描述符。链接数据很少考虑多模态数据,但多模态数据也是语义⽹络的重要组成
部分。为了探索链接数据和多模态数据的结合,构建了IMGpedia,计算Wikipedia条⽬中使⽤的图像描述符,然后将这些图像及其描述与百科知识图谱链接起来。
IMGpedia是⼀个多模态知识图谱的先例。将语义知识图谱与多模态数据相结合,⾯对多种任务下的挑战和机遇。IMGpedia使⽤四种图像描述符进⾏基准测试,这些描述符的引⽤和实现是公开的。IMGpedia提供了Wikidata的链接。由于DBpedia中的分类对⼀些可视化语义查询不⽅便,所以IMGpedia旨在提供⼀个更好的语义查询平台。IMGpedia在多模态⽅向上是⼀个很好的先例,但也存在⼀些问题,⽐如关系类型稀疏,关系数量少,图像分类不清晰等,也是之后需要集中解决的问题。
4. MMKG[4]
MMKG主要⽤于联合不同知识图谱中的不同实体和图像执⾏关系推理,MMKG是⼀个包含所有实体的数字特征和(链接到)图像的三个知识图谱的集合,以及对知识图谱之间的实体对齐。因此,多关系链接预测和实体匹配社区可以从该资源中受益。MMKG有潜⼒促进知识图谱的新型多模态学习⽅法的发展,作者通过⼤量的实验验证了MMKG在同⼀链路预测任务中的有效性。
MMKG选择在知识图谱补全⽂献中⼴泛使⽤的数据集FREEBASE-15K (FB15K)作为创建多模态知识图谱的起点。知识图谱三元组是基于N-Triples格式的,这是⼀种⽤于编码RDF图的基于⾏的纯⽂本格式。MMKG同时也创建了基于DBpedia和YAGO的版本,称为DBpedia-15K(DB15K)和YAGO15K,通
过将FB15K中的实体与其他知识图谱中的实体对齐。其中对于基于DBpedia的版本,主要构建了sameAs关系,为了创建DB15K,提取了FB15K和DBpedia实体之间的对齐,通过sameAs关系链接FB15K和DBpedia中的对齐实体;构建关系图谱,来⾃FB15K的很⼤⽐例的实体可以与DBpedia中的实体对齐。但是,为了使这两个知识图谱拥有⼤致相同数量的实体,并且拥有不能跨知识图谱对齐的实体,在DB15K中包括了额外的实体;构建图像关系,MMKG从三⼤搜索引擎中获取相应⽂本实体的图像实体,⽣成对应的⽂本-图像关系。但是,它是专门为⽂本知识图谱的完成⽽构建的,主要针对⼩数据集(FB15K, DBPEDIA15K, YAGO15K)。MMKG在将图像分发给相关⽂本实体时也没有考虑图像的多样性。
⼆、基于百科多模态知识图谱Richpedia
虽说之前的⼀些⼯作如IMGpedia和MMKG融合了多模态的知识,构建了多模态知识图谱,但其中也存在⼀些问题,例如在IMGpedia中关系类型稀疏,关系数量少,图像分类不清晰等,在MMKG中图像并没有作为单独的图像实体存在,⽽是依赖于相应的传统⽂本实体。这些问题对于多模态任务的发展有着较⼤制约,东南⼤学认知智能研究所基于解决如上存在的问题的动机,提出了多模态知识图谱Richpedia[5]。
Richpedia多模态知识图谱的定义如下:实体集合E包括⽂本知识图谱实体EKG和图像实体EIM,R表
⽰⼀系列关系的集合,其中E和R利⽤统⼀资源标识符(IRIs)表⽰。L是⽂字的集合(例如:“伦敦”,“750px”),B表⽰为⼀系列的空⽩节点。Richpedia三元组t表⽰格式为<subject, predicate, object>,是(E∪B)×R×(E∪L∪B),Richpedia多模态知识图谱是Richpedia三元组的集合。
蜡笔英文在构建多模态知识图谱中,总体模型如图3所⽰。接下来我们会逐步介绍构建Richpedia的流程。
图3.构建Richpedia总体流程
与⼀般的⽂本知识图谱不同,Richpedia的出发点是构造⼀个多模态知识图谱,其中包含了全⾯的图像实体及其之间的关系。但是,如图4所⽰,⽂本知识图谱实体的图像资源有很⼤⼀部分是长尾分布。换句话说,平均每⼀个⽂本知识图谱实体在Wikipedia中只有很少的视觉信息。因此,我们考虑借助外部来源来填充Richpedia,⾸先我们基于现有的传统⽂本实体,从维基百科,⾕歌,必应和雅虎四⼤图像搜索引擎中获取相应的图像实体,每⼀个图像作为知识图谱中的⼀个实体存储于Richpedia中。Wikidata已经为每个⽂本知识图谱实体定义了唯⼀的统⼀资源标识符,我们将这些统⼀资源标识符添加到Richpedia作为⽂本知识图谱实体。在⽬前的版本中,我们主要收集了30,638个关于城市、景点和名⼈的实体。对于图像实体,我们可以直观地从Wikipedia上收集图像,然后在Richpedia中创建相应的统⼀资源标识符。
图4.Wikipedia中的图像分布⽐例
在收集完图像实体之后,我们需要对图像实体进⾏预处理和筛选。因为我们的数据来⾃于开放资源,它们会被搜索引擎基于与查询字段的相关性评分进⾏排名。从多模态知识图谱的⾓度⽽⾔,⽂本知识图谱实体所包含的图像实体不仅要相关性⾼⽽且还要具有多样性,如图5所⽰,对于中间的图像实体,右侧的图像实体因为较⾼的相似性从⽽被系统过滤掉,保留左侧相似性较低的图像实体。因为从搜索引擎中获取的图像实体难免存在重复问题,接下来我们通过⼀系列的预处理操作,使得每个图像实体都与相应的传统⽂本实体具有较⾼的相关度。其中预处理操作包括去噪操作和多样性检测,去噪操作的⽬的是去除不相关的图像实体,多样性检测的⽬的是使得图像实体具有尽可能⾼的多样性。
测,去噪操作的⽬的是去除不相关的图像实体,多样性检测的⽬的是使得图像实体具有尽可能⾼的多样性。
财务岗位
图5.Richpedia中图像实体的多样性
因为很难基于不同图像的像素特征直接检测出这些语义关系,所以我们利⽤基于规则的关系抽取模板,借助Wikipedia 图像描述中的超链接信息,⽣成图像实体间的多模态语义关系。在图6中,我们以rpo:contain和rpo:nearBy为例说明如何发现协和⼴场,卢克索⽅尖碑和航运喷泉图像实体间的语义关系。如图6所⽰,我们在中⽂维基百科中协和⼴场词条中获取到包含卢克索⽅尖碑和航运喷泉的图像实体,从语义视觉关系的⾓度上看,协和⼴场包括了卢克索⽅尖碑和航运喷泉,卢克索⽅尖碑就在航
运喷泉的旁边。为了发现这些关系,我们收集这些图像的⽂本描述,并提出三个有效的规则来提取多模态语义关系:
规则1. 如果在描述中有⼀个超链接,其指向的对应Wikipedia实体的概率很⾼。我们利⽤Stanford CoreNLP检测描述中的关键字。然后,通过字符串映射算法发现预定义关系。例如,如果我们在两个实体之间的⽂本描述中得到单词‘left’,我们将得到‘nearBy’关系。
规则2. 如果描述中有多个超链接,我们基于语法分析器和语法树检测核⼼知识图谱实体(即描述的主体)。然后,我们以核⼼知识图谱实体作为输⼊,将这种情况简化为规则1。迅捷网络
规则3. 如果在描述中没有指向其他词条的超链接,我们使⽤Stanford CoreNLP来查找描述中包含的Wikipedia知识图谱实体,并将这种情况简化为规则1和规则2。因为规则3依赖于NER结果,准确率低于相应的预标注超链接信息,所以它的优先级低于前两个规则。
图6.Richpedia中多模态语义关系发现
三、基于Richpedia的多模态知识服务⽹站
少林寺网a) Homepage:主要对Richpedia数据库进⾏了概述。我的什么梦
图7.Homepage界⾯
b) Download:提供了image⽂件和三元组关系N-Triples⽂件的下载链接。
图8.Download界⾯
c) SPARQL:实现了对Richpedia数据库中的实体和视觉关系的SPARQL查询。
图9.SPARQL查询界⾯
d) Query:提供了对地名和⼈物的直接查询相关图⽚功能。
图10.查询界⾯
图11.查询结果
e) Tutorial:提供了⽹站的使⽤教程。
⾸先,我们可以在Richpedia中查询实体信息,包括图像实体实体和⽂本知识图谱实体。第⼀步是选择查询的实体类别,然后选择要具体查询的实体。例如,如果我们要查询安卡拉城市实体的⽂本知识图谱实体和图像实体,可以在下拉
别,然后选择要具体查询的实体。例如,如果我们要查询安卡拉城市实体的⽂本知识图谱实体和图像
实体,可以在下拉选择器中选择对应的安卡拉城市标签。之后出现的页⾯中上半部分是安卡拉的⽂本知识图谱实体,下半部分是安卡拉的图像实体。
其次,我们可以通过Richpedia的在线访问平台查询图像实体之间的视觉语义关系。选择查询⽂本知识图谱实体后,点击对应的图像实体,可以查看图像实体的视觉语义关系。例如,当我们想查询⼀个与北京动物园图像实体具有
rpo:sameAs关系的图像实体时,我们可以点击相应的北京动物园图像实体,得到相应的结果。
图12.Tutorial界⾯
f) Ontology:提供了Ontology的相关信息。毫无疑问的英文
图13.Ontology界⾯
g) Resource:提供了对所有图⽚资源的访问地址。
h) Github 链接以及页⾯底端:提供了friendly link,联系⼈邮箱,Github主页以及分享协议。
四、多模态知识图谱应⽤
多模态知识图谱的应⽤场景⼗分⼴泛,⾸先⼀个完备的多模态知识图谱会极⼤地帮助现有⾃然语⾔处理和计算机视觉等领域的发展,同时对于跨领域的融合研究也会有极⼤的帮助,多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在⾼层语义上是统⼀的,所以多种模态数据的融合有利于推进语⾔表⽰等模型的发展,对于在语义层级构建多种模态下统⼀的语⾔表⽰模型提出数据⽀持。其次多模态知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可以⼴泛应⽤于新闻阅读,时事推荐,明星同款等场景中如图14,多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱,完善现有的多模态知识图谱,利⽤动态更新技术使其更加的完备,多模态对话系统的应⽤就更加的⼴泛,现阶段电商领域中集成图像和⽂本的多模态对话系统的研究蒸蒸⽇上,多模态对话系统对于电商推荐,商品问答领域的进步有着重⼤的推进作⽤。
图14.多模态知识图谱在视觉实体链接中的应⽤
多模态知识图谱是⼀个新兴领域,受益于近些年通讯技术的发展,多模态数据越来越成为⼈们⽣活中触⼿可及的信息,种种多模态技术也成为当下研究的热门⽅向。
参考⽂献
[1] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The mantic
web. Springer, Berlin, Heidelberg, 2007: 722-735.
[2] Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgeba[J]. Communications of the ACM, 2014,
57(10): 78-85.
[3] Ferrada S, Bustos B, Hogan A. IMGpedia: a linked datat with content-bad analysis of Wikimedia
images[C]//International Semantic Web Conference. Springer, Cham, 2017: 84-93.
[4] Liu Y, Li H, Garcia-Duran A, et al. MMKG: multi-modal knowledge graphs[C]//European Semantic Web Conference. Springer, Cham, 2019: 459-474.
[5] Wang M, Qi G, Wang H F, et al. Richpedia: A Comprehensive Multi-modal Knowledge Graph[C]//Joint International Semantic Technology Conference. Springer, Cham, 2019: 130-145.
【TCMKB】最强解说!中医药知识图谱究竟是什么?怎么来的?有什么?

本文发布于:2023-06-09 17:53:45,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/913165.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   知识   模态   图谱   图像
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图