i
数据挖掘课程论文
题冃:数据挖掘中
神经网络方法综述
学号:1013019________
姓名:袁博___________
ii
专业:工业工程________
(一)数据挖掘的定义3
(二)神经网络简述3
二、神经网络技术基础理论,,,,,,,,,,,,,,3
(一)神经元节点模型3
(二)神经网络的拓扑结构4
(三)神经网络学习算法4
(四)典型神经网络模型5
三、基于神经网络的数据挖掘过程,,,,,,,,,,,6
(一)数
据准备,,,,,,,,,,,,,,,,,,,6
(二)规则提取7(三)规则评估
四、总幺结
I1'>―I,,,,,,,,,,,,,,,,,,,,,,
3
一、引言
(一)数据挖掘的定义
关于数据挖掘的定义很多,其中被广泛接受的定义是:数据挖掘是一个从不完整的、
不明确的、大量的并且包含噪声,具有很大随机性的实际应用数据中,提取出隐含其中、
事先未被人们获知、却潜在有用的知识或模式的过程。该定义包含了一下几个含义:
(1)数据源必须为大量的、真实的并且包含噪声的;(2)
挖掘到的新知识必须为用户需求的、感兴趣的;(3)挖掘到的知识为易理解的、
可接受的、有效并且可运用的;(4)挖掘出的知识并不要求适用于所有领域,可以仅支
持某个特定的应用发现问题。⑴这个定义准确的叙述了数据挖掘的作用,即对海量、杂乱
无章的数据进行处理和分析,并发现隐藏在这些数据中的有用的知识,为决策提供支持。
(二)神经网络简述
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神
经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非
线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知
识。[2]起初,神经网络在数据挖掘中的应用并未被看好,其主要原因是神经网络具有结构
复杂、可解释性差、训练时间长等缺陷。但其对噪声数据的高承受能力和低错误率的优
点,以及各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法
的不断提出与完善,使得神经网
络在数据挖掘中的应用越来越为广大使用者所青睐。
二、神经网络技术基础理论
(一)神经元节点模型
生物神经元,也成神经细胞,是构成神经系统的基本单元。生物神经元主要由细胞
体、树突和轴突构成。人们将生物神经元抽象化,建立了一种人工神经元模型。
⑴连接权
连接权对应于生物神经元的突触,各个人工神经元之间的连接强度由连接权的权值表
示,权值正表示激活,为负表示抑制。
(2)求和单元
4
求和单元用于求和各输入信号的加权和(线性组合)。
(3)激活函数
激活函数起非线性映射作业,并将人工神经元输出幅度限制在一定范围内,
一般限制在(0,1)或者(-1,1)之间。
(二)神经网络的拓扑结构
人工神经网络(ArtificialNeuralNetworks,ANN是由大量人工神经元广泛互联而成
的,它可以用来模拟神经系统的结构和功能。人工神经网络可以看成是以人工神经元为节
点,用有向加权弧连接起来的有向图。根据连接方式,ANN主要分为两大类:
(1)前馈型网络
前馈型网络是静态非线性映射,通过简单非线性处理的复合映射可获得复杂的非线性
处理能力。网络中各个神经元接受前一级的输入,并输出到下一级,网
络中没有反馈,且同层中的神经元之间无连接。
(2)反馈型网络
反馈型神经网络是一种从输出到输入具有反馈连接的神经网络,神经元的输
出可以反馈至同层或者前层神经元。因此,信号能够正向和反向流通。
(三)神经网络学习算法
下面介绍神经网络中最基本的几种学习算法:
(1)Hebb型学习
Hebb型学习的出发点是Hebb学习规则,即如果神经网络中某一神经元同另一直接
与它连接的神经元同时处于兴奋状态,那么这两个神经元之间的连接强度将得到加强。该
学习方式可用如下表示:
%(『+】)=怜(0+疏£("+巴(『)]
(2)误差修正学习
误差修正学习是一种有导师的学习过程,其基本思想是利用神经网络的期望输出与实
际之间的偏差作为连接权值调整的参考,并最终减少这种偏差。最基本
的误差修正规则规定:连接权值的变化与神经元希望输出和实际输出之差成正
5
比。该规则的连接权的计算公式如下所示:
+1)=+"[/(『)—力⑺]丹⑺
(3)竞争型学习
竞争型学习是指网络中某一组神经元相互竞争对外界刺激模式响应的权力,在竞争中
获胜的神经元,其连接权会向着对这一刺激模式竞争更为有利的方向发展。竞争型学习是
一种典型的无导师学习,学习时只需要给定一个输入模式集作
为训练集,网络自行组织训练模式,并将其分成不同类型。[3]
(4)随机型学习
随机型学习的基本思想是结合随机过程、概率和能量(函数)等概念来调整网络的变
量,从而使网络的目标函数达到最大(或最小)。网络的变量可以是连接权,也可以是神经
元的状态[4]。
(四)典型神经网络模型
自1957年美国学者latt于第一届人工智能会议上展示他构造的第一个人
工神经网络模型一MP模型以来,据统计到目前为止,已提出的神经网络模型有上百种之
多。前馈型网络,以BP(BackPropagation)模型、函数型网络为代表,用于分类、预
测和模式识别等方面;反馈型网络,以Hopfield离散
模型和连续模型为代表,常用于联想记忆和优化计算;自组织型网络,以Kohonen和
ART模型为代表,常用于聚类和模式识别。
(1)BP误差反向传播网络,是一种多层前向网络,采用最小均方差学习方式。这是
一种最广泛应用的网络。它可用于语言综合,识别和自适应控制等用途。BP神经网络是
需要有教师的训练。
⑵Hopfield网络是由相同的神经元构成的单层,并且不具学习功能的自
联想网络,并且需要对称连接。
(3)Kohonen自组织神经网络,也称为自组织特征映射网络SOM它的输入层是单
层单维神经元;而输出层是二维的神经元,神经元之间存在以“墨西哥帽”形式进行侧向
交互的作用。因而,在输出层中,神经元之间有近扬远抑的反馈特性,从而使Kohonen
6
网络可以作为模式特征的检测器。
(4)ART网络也是一种自组织网络模型,无教师学习网络。它能够较好地协调
适应性,稳定性和复杂性的要求。在ART网络中,通常需要两个功能互补的子系统(注
意子系统和取向子系统)相互作用。它不足之处是在于对转换、失真和规模变化较敏感。
呵
三、基于神经网络的数据挖掘过程
经过研究,得出了如图所示的基于神经网络的数据挖掘的过程。该过程由数
据准备、规则提取和规则评估三个阶段组成。⑹
(一)数据准备
拥有数据是进行数据挖掘的必要条件,但仅仅拥有数据还是不够的。因此很有必要在
实施数据挖掘之前进行数据准备。所谓数据准备就是对被挖掘的数据进行定义、处理和表
示,以使它适应于特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,
在整个数据挖掘过程中起着举足轻重的作用。它主要包括以下四个过程。
(1)数据清洗:数据清洗就是填充数据中的空缺值,消除噪声数据,纠正
数据中的不一致数据。因为数据仓库中的数据来源于异质操作数据库,这些异质操作数据
库中的数据并非都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的脏
数据。数据清洗可以在数据装入数据仓库之前或之后进行。目前最常用的数据清洗方法有
基于规则的方法、可视化的方法和统计的方法。
(2)数据选择:数据选择就是选择用于本次挖掘的数据列和行。在绝大多数情况
下,虽然人们无法精确地知道哪些参数是对决策最重要的,但神经网络可以帮助人们建立
一个与参数相关的模型,进而帮助确定哪些是最重要的参数。数据选择实际上是在两个维
上进行的。首先是列或参数维的选择,其次是行或记录维的选择。
(3)数据预处理:数据预处理就是对选择后的干净数据进行增强处理。这
种增强处理有时意味着根据一个或多个字段产生新的数据项,有时意味着用一个
7
信息量更大的字段去代替若干个字段。应该说明的是,输入字段的数目不应该是提供给数
据挖掘算法信息量的量度。因为有些数据可能是冗余的,也就是说,有些属性只不过是相
同事实的不同度量方式而已。
(4)数据表示:数据表示就是将数据预处理后的数据转化成基于神经网络
的数据挖掘算法可以接受的形式。基于神经网络的数据挖掘只能处理数值数据,
因此需要将符号数据转化为数值数据。各种常见的神经网络模型的学习算法、网络结构
以及基本功能见参考文献⑺。
(二)规则提取
规则的提取方法很多,其中最为常用的方法有如下几种。
(1)LRE的方法:用LRE的方法对MLP(多层感知器)进行规则提取主要有两
步:第一,对网络中的每一隐层结点和输出结点,搜索不同的输入组合使得输
入加权和大于当前结点的阈值;第二,对每个组合产生一条规则,其前提是各个输入条件
的合取。Either、KTSubt算法就是LRE方法中有代表性的三种方
法。这三种方法的优点是所产生的规则较容易理解;缺点是搜索空间大、搜索效
率低、前后产生的规则有可能发生重复以及不能保证所有有用的规则都被产生出
(2)黑盒的方法:黑盒的方法仅考虑从前馈神经网络的输入和输出的行为来提取
规则,之所以称它为黑盒方法,是因为使用该方法在提取规则时不考虑神经网络的类型和
结构,只关心网络的输入与输出之间的映射关系。Saitoand
Nakano为了从训练好的神经网络提取医疗诊断规则而提出的改进算法就是该方
法的一个典型的例子。
(3)提取模糊规则的方法:在模糊神经网络和神经模糊系统的研究中,有些模糊
神经网络和神经模糊系统中包含了模糊规则的提取和精华方法。
(4)从递归网络中提取规则的方法:该方法将递归网络的状态和有限自动机的状
态相对应,从离散时间递归网络中提取出有限自动机的文法规则。另外,使用该方法可以
提高神经网络的泛化能力。
(5)最近,Tasa和Ghosh又提出了一些新的规则提取方法:二值输入输出
规则提取算法、部分规则提取算法以及全部规则提取算法。有关这三种算法的具
体描述见参考文献[8]0
来。[9]
8
(三)规则评估
尽管规则评估的目标依赖于各个具体的应用,但总体说来,可以根据以下目标来评
估规则:
(1)寻找提取规则的最优顺序,使得它在给定的数据集上
取得最好的效果;
(2)测试被提取规则的正确性;
(3)检测在神经网络中还有多少知识未被提取出来;
(4)检测被提取出来的规则与训练好的神经网络之间存在的不一致性的地方。
但是,预先确定规则的顺序对规则的运用有着重要的作用,然而,从神经网
络中提取规则的过程并未给出任何有关规则顺序的信息,但可以在以下三个测度的基础上
实现它:健壮性测度,它在给定的数据集上测试每条规则被激发的次数,显然它与规则的
顺序无关;完备性测度,它测试有多少模式被单独一条规则所识别;错误警戒性测度,它
测试一条规则被错误激发的次数。[10]
四、总结
目前,全球信息技术迅速发展,互联网快速普及,现代信息系统进入了大数据时代,
人们不得不面对着从过量和海量的数据和信息中挖掘出自己真正需要的数据的境况。所以
数据挖掘算法的研究在近十年来受到了全世界专家学者极大的关注,并飞速发展。数据挖
掘算法在发展过程中不断融合其他领域的知识,产生
了多种多样的算法,除传统分类算法、聚类算法之外,还有人工神经网络、决策树、遗传
算法、规则推导等,它们都有自身的优势特点及广泛适用的应用领域,具有很好的研究价
值。
本文对数据挖掘神经网络方法进行研究,重点阐述了神经网络技术的基础理论及基于
神经网络的数据挖掘过程。遗憾的是因为时间有限,对于神经网络在数据挖掘中的应用研
究并未涉及。
参考文献
[1]黄浩锋•嵌入式数据挖掘概述[J].福建电脑,2008,1(4):16-18.
[2]杨青杰.数据挖掘技术在电子商务中的应用研究[J].商场现代化,2008,1(16):25-27.
[3]HANJiawei,KAMBERM..数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,
2001:4-20,223-253.
9
[4]沈俊霞.人工神经网络几种学习算法的对比.运城学院学报,2005.32.
[5]杜华英,赵跃龙.人工神经网络典型模型的比较研究.计算机技术与发展.2006,16(5):
97~98.
⑹尹松,周永权,李陶深.数据聚类方法的研究与分析田.航空计算机,2005,35(l):63一66.
[7]SpragueRHJr,onSupportSystem,PuttingTheoryinto
Practice[M].PrenticeHall,1989.
[8]workforthedevelopmentofdecisionsupportsystem[J].MIS
Quarterly,1980.
[9]郭洪涛.基于粗糙集与神经网络的分类规则挖掘策略研究[D].河南科技大学:黄广君,
2008.
[10]昝艳.神经网络预测及其在科学数据挖掘中的应用[D].电子科技大学:吴为公,2006.
本文发布于:2023-02-27 21:26:39,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1677504399265.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:数据挖掘论文.doc
本文 PDF 下载地址:数据挖掘论文.pdf
留言与评论(共有 0 条评论) |