okapi

更新时间:2023-01-02 13:47:43 阅读: 评论:0


2023年1月2日发(作者:欲望都市主题曲)

1/4

相对于TF-IDF而言,在信息检索和文本挖掘领域,BM25算法则更具理论

基础,而且是工程实践中当仁不让的重要基线(Baline)算法。BM25在20世

纪70年代到80年代被提出,到目前为止已经过去二三十年了,但是这个算法

依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一。

今天我就来谈谈BM25算法的历史、算法本身的核心概念以及BM25的一

些重要变种,帮助你快速掌握这个信息检索和文本挖掘的利器。

BM25的历史

BM25,有时候全称是OkapiBM25,是由英国一批信息检索领域的计算机科

学家开发的排序算法。这里的“BM”是“最佳匹配”(BestMatch)的简称。

BM25背后有两位著名的英国计算机科学家。第一位叫斯蒂芬·罗伯逊

(StephenRobertson)。斯蒂芬最早从剑桥大学数学系本科毕业,然后从城市

大学(CityUniversity)获得硕士学位,之后从伦敦大学学院(UniversityCollege

London)获得博士学位。斯蒂芬从1978年到1998年之间在城市大学任教。

1998年到2013年间在微软研究院剑桥实验室工作。我们之前提到过,美国计算

机协会ACM现在每三年颁发一次“杰拉德·索尔顿奖”,用于表彰对信息检索技术

有突出贡献的研究人员。2000年这个奖项颁给斯蒂芬,奖励他在理论方面对信

息检索的贡献。BM25可谓斯蒂芬一生中最重要的成果。

另外一位重要的计算机科学家就是英国的卡伦·琼斯(KarenSp?rck

Jones)。周一我们在TF-IDF的文章中讲过。卡伦也是剑桥大学博士毕业,并且

毕生致力于信息检索技术的研究。卡伦的最大贡献是发现IDF以及对TF-IDF的

总结。卡伦在1988年获得了第二届“杰拉德·索尔顿奖”。

BM25算法详解

现代BM25算法是用来计算某一个目标文档(Document)相对于一个查询

关键字(Query)的“相关性”(Relevance)的流程。通常情况下,BM25是“非监

督学习”排序算法中的一个典型代表。

2/4

顾名思义,这里的“非监督”是指所有的文档相对于某一个查询关键字是否

相关,这个信息是算法不知道的。也就是说,算法本身无法简单地从数据中学

习到相关性,而是根据某种经验法则来“猜测”相关的文档都有什么特质。

那么BM25是怎么定义的呢?我们先来看传统的BM25的定义。一般来

说,经典的BM25分为三个部分:

单词和目标文档的相关性

单词和查询关键词的相关性

单词的权重部分

这三个部分的乘积组成某一个单词的分数。然后,整个文档相对于某个查

询关键字的分数,就是所有查询关键字里所有单词分数的总和。

我们先从第一部分说起,即单词和目标文档的相关性。这里相关性的基本

思想依然是“词频”,也就是TF-IDF里面TF的部分。词频就是单词在目标文档

中出现的次数。如果出现的次数比较多,一般就认为更相关。和TF-IDF不同,

BM25最大的贡献之一就是挖掘出了词频和相关性之间的关系是非线性的,这是

一个初看有违常理但细想又很有道理的洞察。具体来说,每一个词对于文档相

关性的分数不会超过一个特定的阈值。这个阈值当然是动态的,根据文档本身

会有调整。这个特征就把BM25里的词频计算和一般的TF区分开了。也就是

说,词频本身需要“标准化”(Normalization),要达到的效果是,某一个单词对

最后分数的贡献不会随着词频的增加而无限增加。

那BM25里词频的标准化是怎么做的呢?就是某一个词的词频,除以这个

词的词频加上一个权重。这个权重包含两个超参数(Hyper-parameter),这些

超参数后期是可以根据情况手动调整的。这个做法在非监督的排序算法中很普

遍。同时,这个权重还包括两个重要信息:第一,当前文档的长度;第二,整

个数据集所有文档的平均长度。

这几个因素混合在一起,我们就得到了一个新的词频公式,既保证单词相

对于文档的相关度和这个单词的词频呈现某种正向关系,又根据文档的相对长

3/4

度,也就是原始长度和所有文档长度的一个比值关系,外加一些超参数,对词

频进行了限制。

有了单词相对于文档的相关度计算公式作为基础,单词相对于查询关键字

的相关度可以说是异曲同工。首先,我们需要计算单词在查询关键字中的词

频。然后,对这个词频进行类似的标准化过程。

和文档的标准化过程唯一的区别,这里没有采用文档的长度。当然,对于

查询关键字来说,如果需要使用长度,也应该是使用查询关键字的长度和平均

长度。

但是,根据BM25经典公式来说,这一部分并没有使用长度信息进行重新

标准化。

接着我来谈谈最后一个部分,单词权重的细节,通常有两种选择。第一种

选择就是直接采用某种变形的IDF来对单词加权。一般来说,IDF就是利用对

数函数(Log函数)对“文档频率”,也就是有多少文档包含某个单词信息进行变

换。这里回顾一下周一讲的内容,IDF是“文档频率”的倒数,并且通过对数函数

进行转换。如果在这里使用IDF的话,那么整个BM25就可以看作是一个某种

意义下的TF-IDF,只不过TF的部分是一个复杂的基于文档和查询关键字、有两

个部分的词频函数。

第二种单词的权重选择叫作“罗伯逊-斯巴克-琼斯”权重

(Robertson-Sp?rck-Jones),简称RSJ值,是由计算机科学家斯蒂芬·罗伯

逊和卡伦·琼斯合作发现。我们刚才讲过,这两位都是重要的信息检索学术权

威。

这个权重其实就是一个更加复杂版本的IDF。一个关键的区别是RSJ值需要

一个监督信息,就是要看文档对于某个查询关键字是否相关,而IDF并不需

要。

对比以上两种思路,在很多情况下,利用IDF来直接进行单词权重的版本

更加普遍。如果在有监督信息的情况下,RSJ值也不失为一个很好的选择。

4/4

通过这里简单的介绍,我们可以很容易地发现,BM25其实是一个经验公

式。这里面的每一个成分都是经过很多研究者的迭代而逐步发现的。很多研究

在理论上对BM25进行了建模,从“概率相关模型”(ProbabilisticRelevance

Model)入手,推导出BM25其实是对某一类概率相关模型的逼近。对这一部分

我在这里就不展开论述了。需要你记住的是,BM25虽然是经验公式,但是在实

际使用中经常表现出惊人的好效果。因此,很有必要对这一类文档检索算法有

所了解。

BM25算法变种

由于BM25的情况,一方面是经验公式,另一方面是某种理论模型的逼

近,这样就出现了各式各样的BM25变种。这里我仅仅介绍一些有代表性的扩

展。

一个重要的扩展是BM25F,也就是在BM25的基础上再多个“域”(Field)

文档上的计算。这里“域”的概念可以理解成一个文档的多个方面。比如,对于

很多文档来说,文档包括标题、摘要和正文。这些组成部分都可以认为是不同

的“域”。那么,如何结合不同的“域”,让文档的相关性能够统一到一个分数上就

是BM25F的核心内容。

具体来说,BM25F对于BM25的扩展很直观。那就是每一个单词对于文档

的相关性是把各个域当做一个“小文档”的加权平均。也就是说,我们先把每个

域当做单独的文档,计算词频,进行标准化。然后集合每个域的值,进行加权

平均,再乘以词的权重(我们上面提到了,用IDF或者是RSJ值)。

另外一个重要的扩展就是把BM25和其他文档信息(非文字)结合起来。

这个想法是在“学习排序”(LearningToRank)这一思路出现以前的一种普遍

的做法,往往就是用线性加权的形式直接把各种信息相结合。例如,在21世纪

初期比较流行的做法是用BM25和PageRank的线性结合来确定网页的相关度。

这里面,BM25是和某个查询关键字有联系的信息,而PageRank则是一个网页

的总体权重。

本文发布于:2023-01-02 13:47:43,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/78088.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:specifics
下一篇:preamplifier
标签:okapi
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图