常⽤相似性、相关性度量指标
(1)Euclidean Distance(欧⼏⾥德距离、欧⽒距离)
设有两个向量
,
它们之间的Euclidean Distance为:
,值越⼩越相似。
(2)Manhattan Distance(曼哈顿距离)
设有两个向量
,
它们之间的Manhattan Distance为:
,值越⼩越相似。品质因数
(3)Minkowsk Distance(闵可夫斯基距离)
设有两个向量
它们之间的Minkowsk Distance为:
,值越⼩越相似。拼音表
(4)Hamming Distance(海明距离)
Hamming Distance可以⽤来度量两个串(通常是⼆进制串)的距离,其定义为这两个⼆进制串对应的位有⼏个不⼀样,那么海明距离就是⼏,值越⼩越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。⼜如x=1000,y=1111,那么x和y的海明距离就是3。
(5)Jaccard Coefficient(Jaccard 系数)
Jaccard Coefficient⽤来度量两个集合的相似度,设有两个集合
和
英语趣闻
,它们之间的Jaccard Coefficient定义为:
,值越⼤越相似。
例如
,
,则
设有两个向量
,短裤的英语
,值越⼤越相关。
(7)Cosine Similarity(余弦相似度)
设有两个向量
,
它们之间的Cosine Similarity为:
,值越⼤越相似。
(8)Mahalanobis Distance(马⽒距离) 设有两个向量
,
它们之间的Mahalanobis Distance为:
,值越⼩越相似。
其中
为x和y的协⽅差矩阵。
(9)Kullback-Leibler Divergence(KL散度)
KL散度⽤来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:
圣诞快乐 英文
,值越⼩,两个分布就越相似。
(10)PMI (Pointwi Mutual Information,点对互信息)
PMI利⽤co-occurance来衡量两个东西x和y的相似度,定义为:
,值越⼤越相关。
其中
生稲花歩
proceeding为x,y⼀起出现的概率,
为x出现的概率,
商标法英文为y出现的概率。
(11)NGD(Normalized Google Distance)
NGD可以⽤来度量两个东西x和y之间的相关性,作⽤和PMI有点类似,定义为:
,值越⼤越相关。
其中至高无上的英文
是x在⽂档集中出现的频率,
按顺序 英文
是y在⽂档集中出现的频率,
是x,y在⽂档集中⼀起出现的频率,
是⽂档集的⼤⼩。