编号:
时间:2021年x月x日
书山有路勤为径,学海无涯苦作舟
页码:第
1
页共
4
页
数据挖掘技术分析论文
[摘要]本文主要介绍了数据挖掘的基本概念,以及数据挖掘的方法。
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。
但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查
询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术
处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由
此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的
非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决
策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可
能发生的行为。数据挖掘的过程也叫知识发现的过中国跆拳道协会 程。
二、数据挖掘的方法
1.统计方法。传关于消防的知识 统的统计学为数据挖掘提供八哥鸟说话 了许多判别和回归分析方
法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新
的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分
析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述
一个变量的变化趋势幼儿园周计划 和别的变量值的关系的线性回归,还有用来为某些事件发生
的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计
回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
第1页共4页
编号:
时间:2021年x月x日
书山有路勤为径,学海无涯苦作舟
页码:第
2
页共
4
页
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个
事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。
关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有
意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算
法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过
关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,
筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个
组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,
凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而
对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚
类分析算法得到的类对决策都有效,在运用某红星闪耀中华 一个算法之前,一般要先对数据的
聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,
通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的
分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分
支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试
这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策
树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大
量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽
第2页共4页
编号:
时间:2021年x月x日
书山有路勤为径,学海无涯苦作舟
页码:第
3
页共
4
页
取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论
哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结
构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行
处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异
和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最
高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个
个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群
(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不
同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某
些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的
适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察
数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于
从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论
属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条
件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有
相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为
精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,
也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集
理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数堤岸 据内在的结构联系。
第3页共4页
编号:
时间:2021年x月x日
书山有路勤为径,学海无涯苦作舟
页码:第
4
页共
4
页
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来
的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的
泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,
现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另
外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特
点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据
挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,
很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,
但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖
掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献
出版社,2003
第4页共4页
本文发布于:2023-04-14 13:47:30,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/82/497347.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |