聚类效果评估——轮廓系数(SilhouetteCoefficient)附Python代码

更新时间:2023-06-10 16:41:50 阅读: 评论:0

聚类效果评估——轮廓系数(SilhouetteCoefficient )附Python 代码
轮廓系数
前⾔
在机器学习中,⽆监督学习算法中聚类算法算作相对重要的⼀部分算法。也常在低资源和⽆标注的情况下使⽤。
其中KMeans作为聚类算法中的⼀种,充当着重要的⾓⾊。由于其思想较为简单,易于理解和⽅便实现。所以经常被⽤来做数据的处理,在NLP领域常被⽤于⽂本聚类以及⽂本类别挖掘等⽅向。但是KMeans算法有⼀个致命的缺点就是,如何选择K 值。K值的选择⾄关重要,选择的好可以有较好的聚类效果。
通常情况下,K值的选择⼈们会根据先验的知识给定⼀个估计的值,或者是利⽤Canopy算法计算出⼀个⼤致的K值。更多的情况下,还是利⽤后验的⽅式进⾏K值的选择。也就是在给定K的范围[a,b]下,对不同的K值分别进⾏聚类操作,最终利⽤聚类效果的评价指标,来给出相应的最优聚类结果。这种评价聚类结果效果的指标有:误差平⽅和(Sum of the Squared Errors, SSE),轮廓系数(Silhouette Coefficient)和CH指标(Calinski-Harabaz)。
软件测试需要学什么
also什么意思是什么?
htr
轮廓系数,是⽤于评价聚类效果好坏的⼀种指标。可以理解为描述聚类后各个类别的轮廓清晰度的指标。其包含有两种因素——内聚度和分离度。
内聚度可以理解为反映⼀个样本点与类内元素的紧密程度。
chiefexecutiveofficer
兴趣是最好的老师分离度可以理解为反映⼀个样本点与类外元素的紧密程度。
为什么?后会无期 台词
为什么轮廓系数可以评价聚类效果的好坏?怎样评价效果好坏?
轮廓系数的公式如下:
其中,代表样本点的内聚度,计算⽅式如下:
其中代表与样本在同⼀个类内的其他样本点,代表了求与的距离。所以越⼩说明该类越紧密。
的计算⽅式与类似。只不过需要遍历其他类簇得到多个值从中选择最⼩的值作为最终的结果。所以原由上式可以发现:
当a(i)<b(i)时,即类内的距离⼩于类间距离,则聚类结果更紧凑。S的值会趋近于1。越趋近于1代表轮廓越明显。
S (i )=max {a (i ),b (i )}
b (i )−a (i )
a (i )a (i )=distance (i ,j )n −11j =i  ∑n
j i distance i j a (i )b (i )a (i ){b (i ),b (i ),b (i ),...,b (i )}123m S (i )
S (i )=⎩⎪⎨⎪⎧1−relationships
b (i )
a (i )0−1a (i )
b (i )a (i )<b (i )a (i )=b (i )a (i )>b (i )
相反,当a(i)>b(i)时,类内的距离⼤于类间距离,说明聚类的结果很松散。S的值会趋近于-1,越趋近于-1则聚类的效果越差。
由此可得:
轮廓系数S的取值范围为[-1, 1],轮廓系数越⼤聚类效果越好。
怎么⽤?
如何计算轮廓系数,已经说明了。但是轮廓系数如何确定K值呢?
我们需要将K值设定为具体的多个数值,范围可以⼈为规定,如2到10。每个K值下进⾏聚类,最终计算聚类结果的轮廓系数。最终将轮廓系数绘制关于K的折线图(绘图更直观)。然后将轮廓系数最⼤的K值作为最终的K值。
不适⽤
对于簇结构为凸的数据轮廓系数较⾼,对于簇结构⾮凸的轮廓系数较低。
因此,轮廓系数不能在不同的算法之间⽐较优劣,如统⼀数据下,可能KMeans的结果就⽐DBSCAN要好。
⽰例
超标英文
如下代码是计算KMeans的轮廓系数的code
from sklearn.cluster import KMeans
ics import silhouette_score
quotation是什么意思# 定义KMeans,以及K值
kmeans = KMeans(n_clusters=n_clusters)
# 根据数据data进⾏聚类,结果存放于result_list中
result_list = kmeans.fit_predict(data)
# 将原始的数据data和聚类结果result_list
# 传⼊对应的函数计算出该结果下的轮廓系数
score = silhouette_score(data, result_list)

本文发布于:2023-06-10 16:41:50,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/920665.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:聚类   轮廓   系数   结果
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图