搜索引擎虽然表现为各种不同的形式,但其最根本是由信息搜集系统、索引数据库和查询接口三部分组成。下面就分别详细描述不同形式搜索引擎的组成:
1)目录导航搜索引擎的信息搜集系统、索引数据库和查询接口
目录导航式搜索引擎的信息搜集系统主要是由人工来完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新的网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。在页面上表现为每个类目路径下排列着相关的网站,所以也叫目录导航。
目录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类目、超文本链接(URL)组成倒排文档。
目录导航式搜索引擎提供两种查询接口形式,一种是在网页上用户可以直接点击树状目录,一层一层的点击查看下去,直到找到用户需求的相关类目下的网站信息。另一种查寻接口就是关键词检索,用户直接在搜索框中输入所需信息的关键词,服务器接受命令后就会去索引数据库中匹配关键词,返回查询结果。因此可以看到,目录导航实现的原理比较简单,主要是编制目录导航页面和设计简单的检索功能。
2)网页搜索引擎的信息搜集系统、索引数据库和查询接口
网页搜索引擎完全体现了现代先进的网络技术。
网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。
网页搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。索引库的具体结构在下文中会有详细的描述。
网页搜索引擎一般只提供关键词检索这一种检索接口形式。为了方便用户的检索,网页检索的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。
当然,也有的搜索引擎开发公司利用网络机器人(robot)或是网络蜘蛛(spider)抓取的网页用计算机自动分类建立目录导航系统,象香港中文大学开发的悠游网()就是这种类型。
3)随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等。
常用搜索引擎列表
【三大搜索门户】
(谷歌)
(百度)
(雅虎)
【其他搜索门户】
(搜狗)
(新浪爱问)
(中搜)
(搜搜)
【图片搜索】
(雅虎相册)
(Google网络相册)
(flickr )很棒的网络相册!需代理
【音乐搜索】
(tureice)教育网内推荐!
(搜刮)
(我99伴奏下载)
(FUFU伴奏网)
(音乐娱乐社区)
【软件搜索】
(学生之家)教育网内速度很快推荐!(华军软件)
(霏凡软件)
(全方位)
(心海e站)
(驱动之家)
(新浪科技)
(DIGDIG数据挖掘)
(天极下载)
(eNet硅谷动力)
【博客搜索】
(谷歌)
(百度)
(新浪)
(爱问)
(Souyo)
【地图搜索】
(谷歌中国)
(谷歌美国)
(百度)
(图盟)
(搜狗)
(爱问)
(8684公交网)
【学术搜索】
(谷歌学术搜索)
(Science周刊)(Science每日新闻)(Nature杂志)
(万方数据库)
(香港科技大学图书馆)(中国科技论文在线)(奇迹文库)
(中国预印本)
(开放阅读期刊联盟)
【wiki】
(维基中文)(暂封)(维库中文)
(维库英文)
【FTP资源搜索】
(北大天网)
(华中科大)
(华东理工)
(歪酷)
(星空互联)
(北邮)
【bt下载】
(5Qbt)教育网内推荐!(BT China)
(bt之家)
【eMule下载】(VeryCD资源)
(飞客eMule搜索)
【游戏搜索】
(Souyo游戏搜索)
(梦幻岛)红白机游戏大全!
【法律搜索】
(Qek法律搜索)
【语言工具】
(Google翻译)
(雅虎翻译)
(汉典字典)
(CERNET成语查询)
(爱词霸在线词典)(StarDick)可自定义词典
【图书馆】
(中国国家图书馆)
(中国科学院文献情报中心)(北京大学图书馆)
(清华大学图书馆)
(中国人民大学图书馆)(北京邮电大学图书馆)(上海交通大学图书馆)(武汉大学图书馆)
(广州图书馆)
(复旦大学图书馆)
(浙江大学图书馆)
(天津大学图书馆)