常用的相似度计算方法原理及实现

更新时间:2023-04-20 04:07:32 阅读: 评论:0


2023年4月20日发(作者:电脑表格制作教程)

常⽤的相似度计算⽅法原理及实现

版权声明:本⽂为博主原创⽂章,遵循版权协议,转载请附上原⽂出处链接和本声明。

本⽂链接:

在数据分析和数据挖掘以及搜索引擎中,我们经常需要知道个体间差异的⼤⼩,进⽽评价个体的相似性和类别。常见的⽐如数据分析中⽐如

相关分析,数据挖掘中的分类聚类(K-Means等)算法,搜索引擎进⾏物品推荐时。

相似度就是⽐较两个事物的相似性。⼀般通过计算事物的特征之间的距离,如果距离⼩,那么相似度⼤;如果距离⼤,那么相似度⼩。⽐如

两种⽔果,将从颜⾊,⼤党员公开承诺事项 ⼩,维⽣素含量等特征进⾏⽐较相似性。

问题定义:有两个对象X,Y,都包含N维特征,X=(x1,x2,x3,……..,xn),Y=(y1,y猴子的英语怎么写 2,y3,……..,yn),计算X和Y的相似性。常⽤的有五种⽅法,如

下。

1、欧⼏⾥得距离(Eucledian Distance

欧⽒距离是最常⽤的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据很稠密并且连续时,这是⼀种很好的计算⽅式。

因为计算是基于各维度特征的绝对数值,所以欧⽒度量需要保证各维度指标在相同的刻度级别,⽐如对⾝⾼(cm)和体重(kg)两个单位

不同的指标使⽤欧式距离可能使结果失效。

代码:

2、曼哈顿距离(Manhattan Distance

Manhattan distance = |x1 – x2| + |y1 – y2|,p1 at (x1, y1) and p2 at (x2, y2).

代码:

3、明可夫斯基距离(Minkowski distance

明⽒距离是欧⽒距离的推⼴,是对多个距离度量公式的概括性的表述,看看下图

公式:

从公式我们可以看出,

当p==1,“明可夫斯基距离”变成“曼哈顿距离”

当p==2,“明可夫斯基距离”变成“欧⼏⾥得距离”

当p==∞,“明可夫斯基距离”变成“切⽐雪夫距离”

代码:

4、(余弦相似度)Cosine Similarity

余弦相似度⽤向量空间中两个向量夹⾓的余弦值作为衡量两个个体间差异的⼤⼩。相⽐距离度量,余弦相似度更加注重两个向量在⽅向上的

差异,⽽⾮距离或长度上。

代码:

5Jaccard Similarity

Jaccard系数主要⽤于计算符号度量或布尔值度量女装店图片 的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此⽆法衡量

差异具 勾勒的意思 体值的⼤⼩,只能释放ip 获得“是否相同”这个结果,所以Jaccard系数只关⼼个体私车公用租赁协议 间共同具有的特征是否⼀致这个问题。

对于上⾯两个对象A和B,我们⽤Jaccard计算它的相似性,公德国国家足球队 式如下

⾸先计算出A和B的交(A ∩ B),以及A和B的并 (A ∪ B):

然后利⽤公式进⾏计算:

代码:

六、⽪尔森相关系数(Pearson Correlation Coefficient)

⼜称相关相似性,通过Peason相关系数来度量两个⽤户的相似性。计算时,⾸先找到两个⽤户共同评分过的项⽬集,然后计算这两个向量

的相关系数。

公式:

实现汇总:

参考资料

1、

2、


本文发布于:2023-04-20 04:07:32,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/838769.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:相似度
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图