k-means聚类算法的改进研究

更新时间:2023-06-17 09:34:16 阅读: 评论:0

拔丝红薯的家常做法
ABSTRACT
In the United States military to develop the Internet, and open to the outside world, the rapid development of computer systems, more and more scientists, rearchers put into the development of computer systems. At the same time, the electronic data has become the mainstream in the Internet and independent computer systems to produce more and more data, more and more redundant data, how to find the massive data we need to become With the development of the Internet an important rearch topic, the nature of the study is the mining of data summarized, and clustering algorithm is developed in the development process is a very important method, clustering algorithm rearch history is very long, each step Development has its own unique characteristics, in the identification of data has important significance.
The traditional K-means clustering algorithm is not perfect in applicability. With the complexity and dimensionality of the data object, the traditional K-means clustering algorithm is not perfect. In this paper, , The complexity of the problem appears to ri. Bad on the traditional k-means algorithm, an improved clustering algorithm is propod to solve the problem of traditional clustering algorithm. The intrusion detection technology is applied to the traditional algorithm and the improvement of clustering algorithm. The results show that the improved algorithm is effective.
屈原生平
KEY WORDS:K-means Clustering, Clustering analysis, Data mining
目    录
摘 要.............................................................................................................................. I ABSTRACT ................................................................................................................. I I 第1章导论 (1)
1.1 国内外相关研究现状 (1)
1.2 选题的目的和意义 (2)
1.3 研究内容和研究方法 (4)
第2章数据挖掘中的聚类分析 (7)
2.1 聚类分析的基础知识 (7)
舟山嵊泗岛
2.2 聚类算法的要求 (8)
和胃2.3 聚类算法的分类 (10)
土木工程英文
怎样修眉毛2.3.1 划分的方法 (10)
2.3.2 层次的方法 (10)
2.3.3 基于密度的方法 (11)
2.3.4 基于网格的方法 (12)
2.4 聚类分析中的数据结构 (12)没有你的夜晚
2.5 聚类分析中的相似性度量 (13)
2.6 聚类准则函数 (14)毛蟹茶
第3章改进的聚类算法 (17)
3.1 SFC选取两个最佳初始聚类中心 (17)
3.2 聚类中心近邻的查找 (18)
3.3 K-2个聚类中心的查找 (19)
3.4 改进算法的整体描述 (20)
第4章实验结果及分析 (23)
4.1 入侵检测技术的介绍 (23)
4.2 实验数据介绍 (26)
4.3 数据的预处理 (27)
4.4 仿真实验结果及分析 (30)
第5章总结与展望 (35)
参考文献 (37)
致谢 (41)
第1章导论
1.1国内外相关研究现状
统计学拥有众多的分支学科,研究人员对统计学的研究历史已有很久,而聚类分析更是科学研究人员的研究重点,聚类算法的重点在于数据对象的处理,以求聚类中心点为重点。
算法作为软件工程的一种对数据处理的方法,它的主要用处在于让机器读懂。而在这个领域,学习分为无规律和有无规律的学习,聚类分析因其特点,属于无规律学习的范围。在下文中将对无规律学习的代表聚类分析与有规律学习的代表分类进行对比,比对两种学习方式间的不同。因聚类在计算中,需要从大量无序数据中找出规律,因此,聚类的本质在于观察。在概念聚类中,一组对象只有当它们可以被一个概念描述时才形成一个簇,这不同于基于几何距离度量相信度的传统聚类。
聚类分析,有其广泛的用途,因其对大数据的处理优势,困此常被企业用户用来对大型数据库进行分析。
(1)算法的可伸缩性:聚类算法的种类很多,根据数据对象的数量不同,适用的算法种类也不同,小数据集合以对象数量分类,小于200个时,可以执行多种数据模型。当数据类型达到数百万时,聚类算法在应用过程中,将不会像数据对象数量小于200时那样准确,得出的结果会有偏差,当然,当使用不同的聚类算法时,偏差也会不同。因此,可伸缩性是聚类分析在处理大数据集合时的优势。
(2)处理具有不同特性的数据对象的能力:传统的k-means算法等包括其它的算法在内,它们被设计用来处理聚类数值对象,但应用实际时,数据对象的类型不只是聚类,包括分类/标签类型和二元数据等类型,当这些不同类型的数据混合在一起时,也需要算法来处理,这时候就需要算法的适应性高,能适应不同类型的数据。
(3)处理具有不同形状聚类的能力:欧几里德距离也称为欧式距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。很多的聚类算法在计算数据对象之间的距离时,所依据的就是欧基里德距离公式,欧几里德距离中,距离越近就越相似,因此,基于欧基里德距离的聚类算法倾向于发现相似形状数据,但数据集的形状可能是任意的,因此,如何处理不同形状数据簇,
(4)用于决定输入参数的领域知识最小化:在数据集中,数据所具有的维数越高,就像平面的二级数据,人类能感知到的三维数据,维数越高,聚类算法越复杂,受影响的因素也更多。在传统的K-means算法中,数据是无序的,它的算法要求在计算时计算出类的数量。而在有些其它的算法中,却需要人工输入一些数据,而这些数据在输入后,就会对算法产生影响,同样的,维数越高的数据,受到的影响越大,它会使计算变的复杂,对算法的结果也会产生非常大的影响。
(5)对于输入记录顺序不敏感:数据对象在运行算法时,数据在输入算法时,会有一定的顺序输入,在理论上来说,数据对象的输入顺序并不应该影响算法的结果,数据对象在运行算法时,数据在输入算法时,会有一定的顺序输入,在理论上来说,数据对象的输入顺序并不应该影响算法的结果,但在一些聚类算法中,数据对象的输入顺序却影响了算法的结果,因此,如何提高聚类算法中,数据输入顺序对其不影响的算法内容,是当前研究的重点。
(6)高维性:平面数据是二维的,人们在日常生活中感受到的世界是三维的,在日常生活中加入时间,
就变成了四维空间,在一个存有海量数据的数据库中,它包含的数据也可以以维度划分。维度越高,处理的难度越大。
(7)处理噪声数据的能力:在聚类算法的应用中,因为数据量很大,并不是所有的数据对象对实际应用会有用处,比如错误的数据,比如偏离正常值的数据,和超出数据应用范围的未知数据。在聚类算法中,这些数据是无用的,对聚类算法的影响很大,在大数据中如若存在着过多的这种无用数据,将会对算法最终的结果产生不好的影响,会降低算法结果的质量。
(8)基于约束的聚类:在聚类算法对数据对象的处理过程中,除了要考虑数据对象自有的特性,并按它们的特性分类后,有时候还会有外部条件对数据的制约,这时候,为了聚类算法在应用中起到所需的作用,外部条件同样是重要的限制条件,因此,这时候的聚类算法的难度大大增加。
(9)可解释性和可用性:在用聚类算法计算出结果后,使用者都会期望这个结果是可以解释的,并且可以起到实实在在的作用。
1.2选题的目的和意义
信息技术每天都在发生着非常大的、日新月异的变化,收集数据方面,在信息技术的发展促进下,能力有了大幅的提升,在当今时代,产生的大量的数据恢复形成的数据库,各大公司的数据库信息被应
用在各个领域,如商业管理、政府政务信息处理、大学及研究院等科学机构等。只获得数据并不代表就获得了利益,数据能任为一个机构所能依赖的信息和资源,要在机构的业务范围内,利用此数
据库资源为机构的决定和方针发展提供有利的服务,要不然大量的数据库存储只会成为机构发展的负担,因此,聚类算法的研究有重要的意义。
数据是杂乱无章的,数据的数量级一般都很大,并不存在着一定的规律,它是无章可循的,杂乱的,我们需要的数据隐藏在这些随机有着“噪声”的大量的数据中,在这些数据中我们挖掘时还要分析提取里面人们并不知道的有用的数据。原始的大量的数据就像是矿山,也许一座山中有用的矿石只占一小部分,而且隐藏的很深,数据挖掘就是将大量数据中的有用的“矿石”提取出来。在数据库中的数据,它的形态有多种多样,可以是杂乱无章的,也可以是像文本一类的非结构化的数据。而挖掘数据,是一个复杂的过程,它的方法可以是以数学的计算方法,也可能是以别的方法来发现它们;可以是演绎的,也可以是归纳的。杂乱的数据对企业和用户是无用的,而其中的“矿石”却可以应用广泛。在各大型企业中,人事信息、财务信息、业务信息等信息量巨大,而数据的挖掘就可能为这些信息的管理提供方法;网络在近些年发展很快,同样的,也带来了信息的大爆炸,大量的信息充斥网络,在人们搜索信息时,人们想得到的只是有用的信息,而当搜索时出现的无用信息只会带来烦恼,而挖掘数据就在信息查询方面提供了优势作用;在企业用户进行业务工作的同时,企业发展战略及业务推广需要的是用户的体验及市场的反馈,这就需要数据的支持,而数据挖掘就起到这样的作用,将数据按需分类,
为企业的发展提供支持;当然,同时,数据在进行挖掘时,同样可有观测数据的特性,以进行维护。为实现上述所说数据挖掘的功能,挖掘数据需要用到各种各样的技术,比如,人工智能技术需要数据的支持,人的大脑能存储的数据是海量的,而人工智能就是为了让机器更像人类,因此需要将人类大脑所能存储理解的数据转移到机器身上,因此,数据的挖掘就尤其重要;统计学是一门应用广泛的学科,在处理大数据时的统计尤其重要。以上原因,研究数据挖掘的人员来自于各行各业,来自于各种研究学科。
聚类分析将获得的数据划分开,根据其性质的区别划分,这样可能更直观的展现数据在性质相同条件下的子类,便于了解数据的分布情况。因为聚类分析在这方面的优势方法,聚类分析被应用于各个方面,在图形图像的处理、数据的压缩等方面应用广泛。比如:
(1)在商业领域的机构在运用聚类分析时,在自己的潜在市场中,通完聚类分析能够帮助机构的决策制定者分析中不同客户之间的区别,进行差别化对待,按照各客户群之间的不同,提升利益的最大化;
(2)在科学领域中,例如生物工程,在生物工程中,存在着庞大的动植物种群,第一种动植物都有着自己的庞大的数据库,它们的分类是一个更加庞大的工程,动植物学家们想要对它们进行分类,分科,分属,就需要用到特别的方法,

本文发布于:2023-06-17 09:34:16,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/974547.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   聚类   算法   对象   信息   需要
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图