工作搜索

更新时间:2022-12-31 19:35:22 阅读: 评论:0


2022年12月31日发(作者:gre考试地点)

搜索引擎工作原理

搜索引擎工作原理

一、搜索引擎的分类

获得网站网页资料,能够建立数据库并提供查询的系统,我们都

可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个

基本类别:全文搜索引擎(FullTextSearchEngine)和分类目录

Directory)。

全文搜索引擎的数据库是依靠一个叫"网络机器人(Spider)"或

叫"网络蜘蛛(crawlers)"的软件,通过网络上的各种链接自动获取

大量网页信息内容,并按以定的规则分析整理形成的。Google、百度

都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,

比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上

的一些导航站点,也可以归属为原始的分类目录,比如"网址之家"。

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为

依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往

往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确

的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多

搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为

搜索"所有网站"或"全部网站",比如Google的全文搜索;把对分类目

录的查询称为搜索"分类目录"或搜索"分类网站",比如新浪搜索和雅虎

中国搜索。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,

在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(METASearchEngine)。这类搜索引擎一般都没有

自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化

其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显

示。元搜索引擎虽没有"网络机器人"或"网络蜘蛛",也无独立的索引数

据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均

有自己研发的特色元搜索技术。比如"metaFisher元搜索引擎",它就

调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多

家搜索引擎的数据。

⒉集成搜索引擎(All-in-OneSearchPage)。集成搜索引擎

是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,

点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果

由各搜索引擎分别以不同页面显示,比如"网际瑞士军刀"。

二、搜索引擎的工作原理

全文搜索引擎的"网络机器人"或"网络蜘蛛"是一种网络上的软件,

它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络

上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网

页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络

机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定

的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库

中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的

检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库

中找

到符合该关键词的所有相关网页的索引,并按一定的排名规则呈

现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽

相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结

果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集

信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信

息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负

责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理

者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核

递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目

录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别

和目录中。所有这些收录的站点同样被存放在一个"索引数据库"中。

用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层

查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据

信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能

在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收

录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话

号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大

类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网

站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,

就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站

上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先

后顺序或者收录的时间顺序决定的)。

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的

网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几

十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引

数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面

内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复

杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,

依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本

身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、

甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个

词比如"恶魔撒旦",但如果有别的网页B用链接"恶魔撒旦"指向这个网

页A,那么用户搜索"恶魔撒旦"时也能找到网页A。而且,如果有越多

网页(C、D、E、F......)用名为"恶魔撒旦"的链接指向这个网页A,或

者给出这个链接的源网页(B、C、D、E、F......)越优秀,那么网页A

在用户搜索"恶魔撒旦"时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索

引数据库→在索引数据库中搜索排序。

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问

互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,

并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页

信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键

词位置、生成时间、大小、与其它网页的链接关系

等),根据一定的相关度算法进行大量复杂计算,得到每一个网

页针对页面内容中及超链中每一个关键词的相关度(或重要性),然

后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中

找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词

的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越

高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等

内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所

有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能

对不同重要性的网页有不同的更新频率),更新网页索引数据库,以

反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根

据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变

化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓

取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储

存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万

G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能

占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重

叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为

它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索

引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里

储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库

里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大

幅度提高你的搜索能力。

本文发布于:2022-12-31 19:35:22,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/67395.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:家庭心理学
下一篇:丙烯基苯
标签:工作搜索
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图