tried
知识图谱怎样入门?
任何一个学科,重要的不是静态的知识本身,而是建立知其然(Framework),知其所以然(Rationale),最后到知未然(Insights)。最重要的便是产生insights,因拥有洞察而知关键所在,所以能预测未来的走向,不人云亦云。
知识图谱作为一门学问,绝不是用个图数据库写几条查询,或者用规则写一个表格的提取,就可以称为成功的运用的。和所有的学科一样,都需要长期的艰苦的努力,在充分了解前人成果的基础上,才有可能做由一点点成绩。
joyce是什么意思知识图谱作为人工智能(AI)的一个分支,和AI的其他分支一样,它的成功运用,都是需要知道它的所长,更需要知道它的所短的。特别是AI各个学派林立,经验主义(机器学习)、连接主义(神经网络)、理性主义(知识工程)、行为主义(机器人)各个方法的优劣,倘若不能有纵览的理解,也难以做小麦的英文
正确的技术选型,往往盲目相信或者排斥一种技术。AI是一
个极端需要广阔视野的学科。
知识图谱涉及知识提取、表达、存储、检索一系列技术,即使想有小成,也需要几年的功夫探索。如下
所列,应该是每个知识图谱从业者都应该了解的一些基本功:
知道Web的发展史,了解为什么互联和开放是知识结构形成最关键的一件事。(我把这个列第一条,是我的偏见一一
但我认为这是最重要的一个insights)
知道RDF,OWL,SPARQL这些W3c技术堆栈,知道它们的长处和局限。会使用RDF数据库和推理机。
了解一点描述逻辑基础,知道描述逻辑和一阶逻辑的关系。
知道模型论,不然完全没法理解RDF和OWL。
了解图灵机和基本的算法复杂性。知道什么是决策问题、可
判定性、完备性和一致性、P、NP、NExpTime。
最好再知道一点逻辑程序(LogicProgramming),涉猎一点
答集程序(AnswerSetProgramming),知道LP和ASP的一
些小工具。这些东西是规则引擎的核心。如果不满足于正则
表达式和if-then-el,最好学一点这些。
哦,当然要精通正则表达式。熟悉regex的各种工具。
从正则文法到自动机。不理解自动机很多高效的模式提取算
法都理解不了。
熟悉常见的知识库,不必事事重新造轮子,如Freeba,
Wikidata,Yago,DBPedia。
熟悉结构化数据建模的基本方法,如ER,面向又^象,UML,脑图。
学会使用一些本体编辑器,如Protege。(Palantir就是个价
值120亿美元的本体编辑器)
熟悉任何一种关系数据库。会使用存储过程写递归查询。明白什么叫物化视图、传递闭包、推理闭包。
weatherreport熟悉任何一种图数据库。明白图的局部索引和关系的全局索引的
理论和实践性能差异。
熟悉词法分析的基本工具,如分词、词性标注
熟悉句法分析的基本工具,如成分分析、依存文法分析、深层文
法分析
熟悉TFIDF、主题模型和分布式表示的基本概念和工具。知道怎么计算两个词的相似度、词和句子的关联度。
知道怎么做命名实体识别。知道一些常用的词表。知道怎么用规则做关系提取。
clk为了上述的深化,要掌握一些机器学习的基本概念,识别、分类、聚类、预测、回归。掌握一些机器学习工具包的使用。
谨慎地使用一些深度学习方法,最好在是了解了神经网络的局限之后,先玩玩BP O主要是用用LSTMo
了解前人已经建好的各种Lexical数据库,如Wordnet,
framenet,BabelNet,PropBank。熟悉一些常用的Corpus。知道信息检索的基本原理。知道各种结构的索引的代价。
掌握Lucene或者Solr/Elasticarch的使用。
sample
学会混合使用多种数据库,把结构化数据和非结构化数据放在一起使用。体会数据建模和查询的成本。
学会一些概念原型工具,如Axure和SemanticMediawiki
快速做MVP。
以上是桂一漏万的一些罗列。知识图谱是交叉性的、实践性
thesis
Howtogetto
的学问,当然不必先蒙头学几年才能来做事。
CarnegieHall?Practice,Practice,Practice.
奥德朗
所以Justpractice。xiejia
enabler
到CNKI搜索一些比较不错期刊的中文综述,应该是最快的入门办法:知识图谱,也被称为知识域可视化或知识域映射地图,是显示科学的知识的发展进程与结构关系的一系列各种不同的图形。它用可视化技术描述知识资源及其载体、挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱的学习,主要应该掌握核心,所谓的核心就是,知识图谱知识库的建立,其中涉及很多关键技术,首先知识图谱中实体及实体间关系的建立,其次,实体抽取不是一件易事,抽取是指从无结构或半结构的Web文档中提取结构化
的信息,并将其关联到某个实体概念。一个实体的所有信息分散在多个Web文档中,如何剔除噪声、排除歧义,将所有相关的可靠信息链接到同一个实体存在很大挑战。最后,需要很好地组织和存储抽取的实体与关系信息,使其能够迅速地访问和操作。
一、知识图谱技术体系知识图谱的构建主要涉及到知识建模、知识抽取、知识融合、知识存储、知识计算以及知识应用,具体可以归纳如下:二、知识图谱实施方法使用现有
的套装工具(如LOD2、Stardog)在现有套装工具的基础上进行扩充针对知识图谱生命周期的各种工具进行组合有针
对性的开发某种工具从零开始构建三、技术架构知识图谱架构如下图,这其中主要包括如下几个部分:3.1数据采集主要涉及到爬虫技术
3.2建立本体可以采用如下两种方式自顶向下:由专家创建自底向上:从现有的行业标准转化;从现有高质量数据源(如
百科)转化
3.3本体编辑有很多现有的工具:如ProtegeSemanticTurkey>Swoop、OBO-Edit等,存在的缺点是需要个人编辑,不能多人并行编辑
3.4知识抽取针对不同的目标数据类型,可以提供文件导入、
ETL、Wrapper、Extractor三种方式:结构化数据,如RDB中的数据,直接ETL或文件上传半结构化数据,如百科,
配置Wrapper解析逻辑文档、文本类数据,如一般的web
数据,利用文本抽取引擎的自然语言处理技术(NLP)、机器学习,利用Extractor抽取成结构化的知识数据
3.5知识融合把结构化数据、半结构化数据、非结构化数据的知识表达形式都统一成RDF的形式,便于存储和查询。具
体的知识融合主要包括如下两种类型:合并外部知识库:数
据层的融合、模式层的融合开放数据集成框架:LDIF合并关
系型数据库:将关系型数据转换成RDF的格式,现有工具
Triplify、d2rServer、OpenLink、Virtuoso、SparqlMap等
3.6知识存储知识存储的主流存储方式是图数据库,但具体实施时需要根据具体的业务需求来选择存储方式,下表总结了各种存储方式的特点:关系型数据库存储三元组表(S,P,O):类似RDF存储结构,以元组为单元进行存储。语义较为明确问题:大量自连接操作的开销巨大
关系型数据库存储属性表:属性相似的主语聚为一张表,类似关系型