知识发现与数据挖掘概述
摘要:数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量
的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
关键字:知识发现数据挖掘神经网络决策树
引言
知识发现与数据挖掘是人工智能,机器学习与数据库技术相结合的产物。随着数据
库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九
十年代,伴随着互联网的出现和发展,以及各种局域网的产生和应用,将整个世界联成
一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。由于计算机
数据采集工具以及关系数据库技术的发展,各行业存储了大量的数据,而关系数据库提
供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在
关系和隐含的信息,这样既淹没了包含的知识又造成了资源的浪费。传统的数据分析手
段更是难以应付,导致越来越严重的数据灾难,使决策者出现或是穷于应付,或是置之
不理的事实。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效
解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促
使了数据库中的知识发现(KDD,KnowledgeDiscoveryinDataba),也有人称为数
据挖掘(DataMining)技术的出现。从数据库中发现知识(KnowledgeDiscoveryin
Databa-KDD)一词是于1989年8月在美国底特律召开的第一届KDD国际学术会议上
正式形成的。1995年在加拿大召开了第一届知识发现和数据挖掘(DataMining—DM,有
人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议。
1、数据挖掘技术的概念
1.1知识发现的概念
KDD(知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许
多定制要求和决策设计等,这一研究领域兴起于八十年代初,它是一个众多学科诸如人
工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融
合所形成的一个新兴的且具有广阔前景的领域。
在KDD-96国际会议上,Fayyad,Piatetsky-Shapiro和Smyth对KDD作了如下描述:
指从数据库中识别并获取获取正确、新颖、有潜在应用价值和最终可理解的模式的非平
凡过程。在这个描述中,数据库是一系列数据事实的集合。模式即知识,它给出了数
据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测
型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序
列模式等。过程是在KDD中包含的多阶段的处理,如数据的预处理、模式搜索、知识表
示及知识评价等。最终可理解性则要求发现的模式能被用户理解,目前它主要体现在简
洁性上。非平凡是指它已经超越了一般封闭形式的数量计算,而将包括对结构、模式和
参数的搜索。
1.2数据挖掘的对象
数据挖掘的对象主要是关系数据库。随着数据开采技术的发展,逐步进入到空间数
据库,时态数据库,文本数据库,多媒体数据库,环球互联网等。文字、音频、图象、
视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要
从千万计的多媒体数据中找出需要的数据和信息是很困难的。目前,对多媒体数据的处
理只能在存取,编辑,集成,快进快退等基本操作上,对多媒体信息的检索仅靠文件标
识、关键字等进行检索,局限性很大。目前,基于内容的多媒体检索,通过实例的查询
方式,检索相似图象,音频,视频信息的应用已经相当成熟。基于内容的音频、视频信
息的聚类、分类、相似查询等数据挖掘技术,已成为研究的热点。
1.3KDD过程的一般步骤
KDD过程由多个阶段的处理相互连接起来,反复进行人机交互过程,一般有数据的
预处理、模式搜索、知识表示及知识评价等。
KDD过程一般如图2.1
图2.1
由上图知,知识发现的过程可粗略的理解为三部曲:数据准备(Datapreparation)
阶段、数据挖掘(Datamining)阶段以及模型的解释评估(interpreparationand
evaluation)阶段。
1.4数据发掘与知识发现的关系
从知识发现的概念及步骤中,我们可以看出,其实知识发现的核心就是数据发掘,
而数据发掘的目的就是有效地从海量数据中提取出需要的知识,实现从数据到信息再到
知识转变为价值的过程。
并非所有的知识发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记
录,或通过因特网的搜索引擎查找特定的互联网页面,则是信息检索领域的任务。虽然
这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计
算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如
此,数据挖掘技术也具有增强信息检索系统的能力,这样一来,就把人们对数据的应用,
从低层次的末端查询操作,提高到为各级决策者提供决策支持的高级层面。
2、知识发现的主要阶段
2.1数据准备(Datapreparation)
KDD的处理对象是大量的数据,往往并不直接在这些数据上进行知识发现,需要做
些准备工作。数据准备一方面是从多种数据源去综合所需要的数据,保证数据的综合性、
易用性以及数据的质量和数据的时效性;另一方面就是如何从现有的数据中衍生出所需
要数据的指标。如果KDD的对象是数据库,呢么这些工作往往在生成数据库时已经准备
就绪。数据准备是KDD的第一个阶段,也是比较重要的一个阶段,因为数据准备得好坏
将直接影响到数据挖掘的效率、准确度以及最终模型的有效性。
2.2数据挖掘(Datamining)
数据挖掘的任务就是从数据中发现模式和规律。根据KDD的目标,数据挖掘阶段需
要分析数据结构、设计搜索策略、选取相应的参数、评价各搜索阶段的假设和结果,得
到可能形成知识的模型。
数据挖掘是KDD的关键阶段,也是最困难的阶段。在构造具体的算法时往往涉及统计学、
机器学习、模式识别、神经网络、演化计算等多个领域,涉及这些领域的技术融合与创
新。事实上,数据挖掘就是一个利用各种分析工具在海量数据中发现模型和数据间关系
的过程。
2.3模型的解释评估(interpreparationandevaluation)
上述阶段所获得的模型,有可能没有实际意义或没有使用价值,因此需要评估哪些
是有效模型。评估工作可以根据用户的要求来做,也可以通过数据检验。这个阶段还包
括把符合实际并有价值的模型以易于理解的方式呈现给用户,这些呈现方式可以是语言
文字报告、函数解析表达式,也可以是图表、图形、决策树等。
3、数据挖掘的方法和技术
数据开采方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、
模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据开采方法和
技术。
3.1神经网络方法
神经网络(NerualNet)指由大量神经元互连而成的网络,是模拟人脑的一类系统,有点
象服务器互连而成的互连网。人脑大约有1000亿个神经元,每个神经元平均与10000
个其他神经元互连,这就构成了人类智慧的直接物质基础。神经元由细胞体,树突(输
入端),轴突(输出端)组成,有兴奋和抑制两种工作状态。每个神经元到另一个神经
元的连接权(后者对前者输出的反应程度)可以接受外界刺激而改变,这构成了学习机
能的基础。
图3.1人工模拟了神经网络结构:
图3.1
人工神经网络首先要以一定的学习准则进行学习,然后才能工作。现以人工神经网
络对手写“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时,应该输
出“1”,而当输入为“B”时,输出为“0”。所以网络学习的准则应该是:如果网络作
出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,
给网络的各连接权值赋予(0,1)区间内的随机值,将“A”所对应的图象模式输入给网
络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在
此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完全随机的。这时如
果输出为“1”(结果正确),则使连接权值增大,以便使网络再次遇到“A”模式输入时,
仍然能作出正确的判断。如果输出为“0”(结果错误),则把网络连接权值朝着减小综
合输入加权值的方向调整,其目的在于使网络下次再遇到“A”模式输入时,减小犯同
样错误的可能性。如此操作调整,当给网络轮番输入若干个手写字母“A”、“B”后,经
过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高。这说明网络
对这两个模式的学习已经获得了成功,它已将这两个模式分布地记忆在网络的各个连接
权值上。当网络再次遇到其中任何一个模式时,能够作出迅速、准确的判断和识别。一
般来说,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。神经网
络模型利用大量的简单计算单元(神经元)连成网络,从而可以实现大规模并行计算;
其分布式的存储结构,将信息存在整个网中,用权值体现出来,因而具有联想能力,可
以从一个不完整的信息恢复出完整信息。其工作机理是通过学习来改变神经元之间的连
接强度。常用神经网络模型有:HopfieldNet、HarmmingNet、Carpenter/Grossberg分
类器、单层感知网、多层感知网、Kohonen的自组织特性图和反向传播(BP)网络。
3.2决策树方法
决策树方法是应用最广泛的归纳学习。所谓决策树就是一棵树,树的根节点是整个
数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两
个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通
过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。
4、结语
数据挖掘技术正飞速发展,但它仍有许多基本问题没有解决,还缺少系统、完整、
统一的理论框架,缺少它独有的方法论,缺少综合多个学科优势所形成的有效手段。因
此这里有机遇,更有挑战。数据挖掘当前发展所面临的核心问题有大数据集与高维、用
户界面与先验知识、过拟合问题等。
参考文献
[1]
本文发布于:2022-11-28 00:43:18,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/35894.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |