2020年第9期29
计算机应用
信息技术与信息化
基于知识图谱的搜索引擎技术研究
张淯舒* ZHANG Yu-shu
婚姻线图解大全摘 要 传统的搜索引擎(Search Engine ,简称SE )主要是借助全文索引网络数据信息,通过关键词对索引予以
匹配,然后提供相关链接给用户。这种SE 技术存在的主要缺点就是对于用户的需求不能做到真正理解,其所提供的相关链接可能并不是用户实际想要的。为了弥补这一缺点,推动SE 技术的进一步发展。文章先介绍了SE 技术的相关技术,然后就基于知识图谱(Knowledge Graph ,简称KG )的SE 技术展开了研究探讨,以供参考。
关键词 搜索引擎;互联网;知识图谱
残疾人补助申请书doi:10.3969/j.issn.1672-9528.2020.09.008
惨不忍睹的近义词* 中国电子科技集团公司信息科学研究院 北京 100086
我不再迷茫作文
0 引言我的狗子
知识图谱(KG)的概念是Metaweb 最先提出来的,他通过对多种技术的使用构建了KG。KG 主要是通过应用信息科学、信息可视化技术、图形学、数学等学科的相关理论与相关方法,以及结合共现分析、引文分析等方法,借助可视化的图谱形象将相关学科的发展历史、核心结构、前沿领域展示出来[1]。KG 通过数据挖掘、信息处置以及数据计算和图绘将复杂的知识领域展示出来,借此实现对知识领域动态发展规律的予以揭示,能够为相关研究提供一定价值的借鉴[2]。伴随互联网的迅速普及,数字信息处于猛烈增长态势,虽然为人们带来了宝贵的信息数据财富,然而面对海量的数据信息,如何将有效的信息从中检索出来,对于SE 而言无疑是一个巨大的挑战。1 相关技术介绍1.1 爬虫技术孕妇能吃火腿肠吗
该技术能够自主对所有可访页面进行访问,并对要求范围的数据信息进行抓取提供给SE 予以相关处理,使得在SE 中用户得以将他们所想要的信息在较短时间内检索到[3]。该技术是一种用来更新或者获取网站内容的技术,是SE 的重要组成部分之一。该技术主要包括四个部分,其中协议处理器主要完成协议处理功能;内容检测主要完成从URL 获取的网页中将所需要的内容提取出来,并对重复内容或者重复页面加以处理,实现网络爬虫效率的提高;URL 提取主要是将还在继续爬虫的URL 提取出来,以便于可以持续爬虫下去;URL
月亮卡通处理主要是排序提取出的URL,并完成爬虫下次初始URLs。
所以该技术的主要流程就是先设定初始URL,然后提取新URL,并将其加入URL 列表,倘若爬虫条件没有满足,则设置提取出来的URL 作为初始URL,在这个过程中主要有最优选择、深度优先、广度优先三种策略。1.2 索引技术
怎样倒车从图1可以看到,SE 系统主要是借助于爬虫工具将抓取到的数据信息经过索引部件从而建立文档,然后对建立的文档展开分析,经过文档索引以后建立索引并在索引库中存放[4]。其中获取数据信息主要是借助网络爬虫来对需要索引的数据信息加以收集,比如各种脚本、文本数据、数据库、Web 站点等;建立文档主要是将原始数据获取到以后,还需要对这些内容加以索引;文档分析主要是借助于文档分析划分文档为系列语汇单元,这些语汇单元可以和关键词与之匹配,以便获取更优的查询结果;文档索引主要是将文档与单词之间的对应关系完成,以便查询的时候将命中内容直接获取到。
图1 索引技术框架