跨语言信息检索在搜索引擎中的应用
摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性、重要性和最近的国内外应用状况。指出了对应用中存在的不足和缺陷,并相对应提出了改进建议。最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望。
关键词:跨语言信息检索 CLIR 搜索引擎
1 概述
所谓跨语言信息检索(Cross-language Information Retrieval,CLIR),系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。CLIR中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target Language)。网络用户检索信息主要通过搜索引擎来达到其目的。就中国来说,CNNIC最新发布的《第25次中国互联网络发展状况统计报告》显示,截至2009年12月31日,中国网民规模达到3.84亿人。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6%四四方方。搜索引擎的使用率为73.3%,较2008年增加了5.3个百分点,超过了即时通信成为网民使用互联网的第三大应用[1]。然而,网络资源语种的多样性和差异性成为了网络用户存取信息的巨大障碍。网络信息语种分布和网络用
户语言分布不平衡。据Internet World Stas统计,截止2009年12月31日,目前全球18亿多网络用户所使用的语言依次为:英语27.7%,中文22.6% ,西班牙语7.8%,日语5.3%,葡萄牙语4.3%,德语4.0%,阿拉伯语3.3%,法语3.2%,俄语2.5%,韩语2.1%,其他语言17.2%。虽然笔者没有找到最近Web网页所使用的语言比率,根据Netcraft统计显示,截止2010年6月全球共有2亿多个网站[2]。而根据《第25次中国互联网络发展状况统计报告》统计结果,中国网站数量仅为232万个,比率刚刚超过10%,由此可见一斑。因此,CLIR是全球知识共享的关键因素,是跨越地理和语言障碍获取信息的技术需求。而且,网络用户需要CLIR工具,用其查找、检索和获悉任何语言和形式的相关信息[3]。
2 跨语言信息检索在搜索引擎中的应用现状
搜索引擎按语种分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。它主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问的翻译和不同搜索引擎检索结果的集成。
2.1 跨语言搜索引擎
2.1.1 教师管理平台国内外概况。国外多数主流的搜索引擎一般具有跨语言检索的功能,如海蜇是什么Google、Ya
hoo!、AltaVista和ixquick等。另外,对检索结果的翻译功能是CLIR技术的一个有机组成部分,是检验CLIR是否成熟以及是否具有实用性的重要指标[4]。此外,Google和AltaVista还能够实现网页翻译,极大地便利了网络用户浏览外文网站。如AltaVista的Babel Fish翻译个人网页多达10000个,当用户点击链接时,链接的网页也会自动翻译。
而具有CLIR功能的中文搜索引擎则较少。就笔者所知的只有传承自Yahoo!的雅虎中国搜索。另外,搜狗具有在线翻译功能[4]。
2.1.2 支持语种数量。Google Translate目前支持环保公益广告52种语言之间的任何翻译,Yahoo!也可以进行13种语言之间翻译整个网站的文字或短文的检索,AltaVista则可以在19种语言之间进行翻译。但是这些标榜家训怎么写CLIR的搜索引擎大多其实只是多个单语言模式搜索的集合,只有Google Translate可以算是真正意义上的跨语言搜索引擎。这仍将是CLIR发展的一个重要方向[5]。
2.1.3 工作流程。跨语言搜索引擎的工作流程可以简单的概括为:用户向系统提交检索词,形成一个源语言的搜索式。系统对搜索式进行语言识别,识别出语种后,就进行提问式的词法分析和结构分析,然后把这些分析过的搜索式翻译成各种语言的搜索式。最后把这一系列的搜索式提交给系统进行检索。系统再将检索到的结果反馈给用户。
Google Translate则在它的帮助文档中提到的:“Google Translate是一个自动翻译器,也就是说,它不受人类翻译的干预,而是以国家最先进的技术代替。现在大多数使用中的商业机器翻译系统已经开发了基于规则的方法,并且需要大量的工作来定义词汇和语法。我们的系统采用不同的方法,我们提供数十亿字词的文本给计算机,同时包括目标语言的集成文本,和由各种语言之间人类翻译实例构成的对齐文本。然后,我们应用统计学技术,来建立一个翻译模型。”可见,不同于传统的基于规则的方法,Google Translate橡皮泥恐龙的检索策略是基于语料库的方法。它用统计学方法从大规模语料中分析和归纳语言现象和规律,再用得到的统计规律或语言模型来处理自然语言。不过在实际使用中,效果差别不大。
2.2 搜索引擎的在线翻译工具
无论搜索引擎是否具有跨语言检索功能,但是它们提供的各种各样的翻译资源也是很重要的研究工具。除了现有的各种词典外,还有不少的在线翻译工具。另外,如AltaVista提供的在线翻译工具Babel Fish,可以为用户翻译一段字数多达150字的文本。搜狗百宝箱中的在线翻译也可起到辞典和翻译短文的作用。
3 不足与改进建议
跨语言搜索引擎现正处于方兴未艾的状况,因此也存在许多不足与缺陷。找出它们的问题
所在,并提出改进的建议,才是推进CLIR的实际措施。
3.1 跨语言搜索引擎的不足
3.1.1 实用性方面,如今CLIR的技术已经取得了长足的进步,但即使是最好的CLIR系统的性能整体上和发展成熟的单语言检索系统仍有差距。在真实语境下跨语言检索系统及其相关工具还是非常缺乏,现有技术离真正的实用化还有一段距离[6]。
3.1.2 交互性方面,大多数跨语言搜索引擎都没有做到与用户的良好互动。单语言搜索引擎在检索结果下方显示相邻和相关词汇的功能,跨语言搜索引擎就不具备。在急需词义消歧的情况下,搜索引擎的交互性显得更加重要。
3.1.3 准确性方面,由于使用商业机器翻译系统,跨语言搜索引擎和在线翻译工具的翻译准确程度显然跟不上用户的需求,当翻译语法结构复杂的文本时更是如此。而真正意义上的CLIR应该是在文档层次进行翻译的。翻译精度不高往往会造成用户对检索结果难以理解。
3.1.4 灵活性方面,传统的基于规则的方法灵活性较差,容易忽略语言中那些经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象。
3.2 改进建议
3.2.1 加强跨语言搜索引擎的系统交互性,采用查询扩展。许多检索词在双语词典中的译项并不唯一,且这些译项所表达的意思有时相差甚远。查询扩展则是在用户输入检索提问后,采取一定策略,对用户的检索要求进行扩充。这样一来,就可以提高检索结果的检全率。同时,要建立用户反馈机制,以求改善CLIR系统。 甘心的拼音
3.2.2 加强通用商业机器翻译软件的研究,提高机器翻译的质量。在CLIR中,解决语言障碍的基本方法是两种语言之间的翻译,而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。目前的通用商业机器翻译软件普遍质量较低。成为制约CLIR在搜索引擎中广泛应用的一个关键因素。同时,要逐步从限制性强的基于规则的策略过渡到基于语料库的策略。
3.2.3 加强Web语料库的建设。语料库是大量文本的集合,由相互对应的两种语言的素材构成。通过建立语料库收集大量单语或双语语料和词典,可以从中获取语言知识和翻译知识。另一方面,还要克服Web资源种类繁多、数量庞大、所涉及的语种众多,以及Web资源版权保护等给Web语料库建设带来的困难。
4 结语汤圆儿歌
CLIR研究真正活跃起来并取得成果,是在Internet迅猛发展的20世纪90年代后期,一些实
验性CLIR技术相继问世[7]。然而经过十几年的发展,跨语言搜索引擎还是很少,效果也不尽如人意。但是相信随着网络的发展、信息技术的进步和对CLIR技术研究的深入,CLIR能够在将来普遍应用于搜索引擎之中。如今垂直跨媒体搜索引擎发展的如火如荼的良机之下,将来CLIR内容也不会局限于文档检索,而是扩展到跨语言图像检索、跨语言语音检索、跨语言视频检索、跨语言交互式检索、跨语言问答系统、跨语言新话题发现和跟踪等。