CURE算法

更新时间:2023-07-23 14:54:39 阅读: 评论:0

CURE算法
CURE算法是⼀种层次聚类算法。
lleck
层次聚类⽅法(Hierarchical Clustering Method) 是⼀种发展⽐较早、应⽤⼴泛的聚类⽅法,按采⽤“⾃顶向下(Top—Down)”和“⾃底向上(Bottom—Up)”两种⽅式,分别被称为分解型层次聚类法(Divisive Hierarehieal Clustering)和聚结型层次聚类法 (Agglomerative Hierarchical Clustering)。复旦附中官网
西安美容培训绝⼤多数聚类算法或者擅长处理球形和相似⼤⼩的聚类,或者在存在孤⽴点时变得⽐较脆弱。 CURE采⽤了⼀种新颖的层次聚类算法,该算法选择基于质⼼和基于代表对象⽅法之间的中间策略。它不同于单个质⼼或对象来代表⼀个类,⽽是选择数据空间中固定数⽬的具有代表性的点。⼀个类的代表点通过如下⽅式产⽣:⾸先选择类中分散的对象,然后根据⼀个特定的分数或收缩因⼦“收缩”或移动它们。在算法的每⼀步,有最近距离的代表点对(每个点来⾃于⼀个不同的类)的两个类被合并。希伯来语翻译
每个类有多于⼀个的代表点使得CURE可以适应⾮球形的⼏何形状。类的收缩或凝聚可以有助于控制孤⽴点的影响。因此,CURE对孤⽴点的处理更加健壮,⽽且能够识别⾮球形和⼤⼩变化⽐较⼤的类。针对⼤型数据库,CURE采⽤随机取样和划分两种⽅法组合:⼀个随机样本⾸先被划分,每个划分被部分聚类。
领事馆英文CURE算法的步骤:
(1)从源数据对象中抽取⼀个随机样本S。
(2)将样本S分割为⼀组划分。国柄
(3)对每个划分局部的聚类。
机械翻译(4)通过随机取样剔除孤⽴点。如果⼀个类增长太慢,就去掉它。
(5)对局部的类进⾏聚类。落在每个新形成的类中的代表点根据⽤户定义的⼀个收缩因⼦收缩或向类中⼼移动。这些点代表和捕捉到了类的形状。
(6)⽤相应的类标签来标记数据。
具体思想如下:sat成绩有效期
(1)CURE算法采⽤的是聚结层次聚类。在最开始的时候,每⼀个对象就是⼀个独⽴的类,然后从最相似的对象开始进⾏合并。
broughtthey(2)为了处理⼤数据集,采⽤了随机抽样和分割 (Partitioning)⼿段。采⽤抽样的⽅法可以降低数据量,提⾼算法的效率。在样本⼤⼩选择合适的情况下,⼀般能够得到⽐较好的聚类结果。另外,CURE算
法还引⼊了分割⼿段,即将样本分割为⼏个部分,然后针对各个部分中的对象分别进⾏局部聚类,形成⼦类。再针对⼦类进⾏聚类,形成新的类。
(3)传统的算法常常采⽤⼀个对象来代表⼀个类,⽽CURE算法由分散的若⼲对象,在按收缩因⼦移向其所在类的中⼼之后来代表该类。由于CURE算法采⽤多个对象来代表⼀个类,并通过收缩因⼦来调节类的形状,因此能够处理⾮球形的对象分布。
(4)分两个阶段消除异常值的影响。CURE算法采⽤的是聚结层次聚类。在最开始的时候,每⼀个对象就是⼀个独⽴的类,然后从最相似的对象开始进⾏合并。由于异常值同其它对象的距离更⼤,所以其所在的类中对象数⽬的增⼤就会⾮常缓慢,甚⾄不增长。第⼀个阶段的⼯作,是将聚类过程中增长⾮常缓慢的类作为异常值除去。第⼆个阶段的⼯作(聚类基本结束的时候)是将数⽬明显少的类作为异常值除去。
(5)由于CURE算法采⽤多个对象来代表⼀个类,因此可以采⽤更合理的⾮样本对象分配策略。在完成对样本的聚类之后,各个类中只包含有样本对象,还需要将⾮样本对象按⼀定策略分配到相应的类中。
(6)根据CURE算法提出者的研究成果,在该算法中收缩因⼦的取值在0.2-0.7之间能取得较好的聚类效果,⽽代表点数c⼀般选择⼤于10的数时,都能找到正确的聚类。]

本文发布于:2023-07-23 14:54:39,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/186350.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:聚类   对象   算法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图