数据仓库概论
—数据仓库与数据挖掘
数据仓库与数据挖掘
在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态
下。当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而
这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信
息和知识。因此,需要一种从大量数据中去粗存精、去伪存真的技术。数据挖掘
技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或
其他信息库中的知识发现,是信息技术自然演化的结果。
一、数据仓库
(一)什么是数据仓库
数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓
库。是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻
留在单一站点,以支持管理决策。首先它是面向主题的,每一行业甚至企业建立
自己的数据仓库,它关注决策者的数据建模与分析。其次它集成存储了整个企业
各部门各时期的数据,因此它是时变的和非易失的。数据仓库中的数据通常包含
历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信
息,可以对企业的发展历程和未来趋势做出定量分析和预测。而在实际数据挖掘
中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。概
言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理
实现,并存放企业战略决策所需信息。
(二)数据仓库的数据组织
在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采
用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织
形式。简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储
起来。在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年
等多个级别,数据被逐一的添加到每天的数据集合中。当一个星期结束,每天数
据被综合成周数据,周数据被综合成月数据,以此类推。后者的数据量比前者大
大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。而连续
文件是综合前两者的优点,既保留细节信息,又大大减少数据量。例如:它在进
行数据存储过程中,可以将相关两个数据表中相同的表项合并,对于两表中不同
的表项分别记录。但是,连续文件增加的合并列也会给查询带来一定的不便。商
业决策在一个适当的时间进行趋势、相关分析等工作都必须求助于组织数据的新
技术。所以对于大型的数据仓库来说,合理有效的数据组织显得尤为重要。
(三)数据仓库的物理结构
物理结构可以是关系数据库、数据立方体。目前,数据立方体的物理实体一
般为关系数据库中的表,从观察数据的特定角度,把某一类属性的集合称为一个
维,每个维都有一个表与之相关联。在数据立方体上可以进行上卷或下钻等OLAP
(联机分析处理)操作,即对不同的数据层次进行概化或细化。OLAP是面向市
场的,用于知识工人的数据分析。其目的是使企业的决策者能灵活地操纵企业的
数据,以多维的形式从多方面多角度来观察企业的状态、了解企业的变化,通过
一致、快速、交互地访问各种可能的信息视图,帮助知识工人掌握数据中存在的
规律,实现对数据的归纳、分析和处理,完成相关的决策。数据仓库系统一般都
支持OLAP的基本操作,也可以认为是一种扩展了的SQL操作。因此,用SQL语句
可实现OLAP操作。
但是SQL查询绝不能代替数据挖掘。用SQL查询可以从关系数据库中知道上
季度卖出了什么商品,卖出了多少商品,上月每个部门的总销售量等浅层次的知
识,但不可以预测新顾客的信用风险,发现商品销售变差的原因,哪种商品的销
售出人意料,哪些商品的销售具有关联风险性等潜在的知识。
二、数据挖掘
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随
机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用
的信息和知识的过程。这些信息和知识可以存放在数据库,数据仓库或其他信息
库中,是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型
和结构、发现有价值的关系或知识的一门交叉学科。准确的说,数据挖掘是数据
仓库中的数据集合,在挖掘算法的作用下将数据转化成相应的信息,最后,在信
息输出时对信息进行度量和滤除。数据挖掘基于的数据库类型有:关系、面向对
象、事务、演绎、时间和时间序列、多媒体、空间、遗产、文本、Web型以及新
兴的数据仓库等。面向对象的数据库是基于面向对象的程序设计范例,对象可以
是雇员、商品等,而涉及一个对象的数据和代码被封装在一个单元中,对象可以
与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫
星图像数据库等,数据挖掘可以发现描述不同海拔高度山区的气候,或根据城市
离主要公路的距离描述城市贫困率的变化趋势。通过时间和时间序列数据库,数
据挖掘可以根据数据库中存储的随时间变化的信息,发现对象演变特征和对象变
化趋势,帮助进行制订投资策略等。在文本数据库中,大部分是高度非结构化的
长句和短文,数据挖掘的作用是发现和描述对象和类的特征,进行关键词和内容
关联性分析以及文本对象的聚类。多媒体数据库存储的是图像、音频、视频数据,
在其上进行数据挖掘,需要与存储和搜索技术结合在一起,进行多媒体数据的特
征提取和基于相似性的模式匹配等。信息化早的企业在信息技术发展中保留下来
的一系列数据库是十分有用的,这些数据库可能是关系、层次、网状、多媒体、
文本数据库和电子表格等,在这些异构数据库和遗产数据库上进行数据挖掘的关
键是进行各种数据库间的清理与变换。Web和与之关联的信息服务系统的数据对
象链接在一起,用于交互访问,对数据挖掘也提供了大量机会和挑战。但数据挖
掘不是万能的,不要期望数据挖掘算法会处理数据源中的异常数据或相互有冲突
的字段等,这些工作最好放在挖掘之前的数据预处理阶段。
三、数据挖掘的实施
可以把数据挖掘视为数据库中的知识发现。首先,需要定义商业问题。然后
根据要求选择组建数据挖掘库,挖掘库中的信息可以是从数据仓库中提取或从外
部数据源中直接获取。其次,建立挖掘库后,需要对数据进行分析,拟定初步的
数据模型。最后,根据某种兴趣度度量,识别表示知识的真正有趣的模型,如果
模型和实际系统有较大的误差,则模型需要重新修订,直到较接近再对模型进行
解释,并作为辅助决策信息传递给管理部门。
建立数据仓库的步骤是:(1)数据清理:填写空缺值、消除噪声、处理不
一致。(2)集成:让多种数据源组合在一起。(3)选择:从数据库中检索、分
析与任务相关的数据。(4)变换:数据概化、细化、归约,统一成适合挖掘的
形式。数据挖掘包括:(1)从数据仓库提取数据,使用智能方法产生预言模型
或规则集。(2)选择或者联合产生优化的预言模型。(3)根据规则的支持度和
置信度这两个度量,识别表示知识的真正有趣的模式。(4)评估预言模型。
四、数据挖掘的功能
在有些情况下,用户不知道什么类型的模式是有趣的。因此,数据挖掘系统
的功能是能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。
(一)关联规则
是形如:规则前件→规则后件[支持度,置信度],即满足前件中条件的
数据库元组也满足后件中条件。关联性分析广泛应用于交易数据、关系数据的分
析,寻找存在于项目集合或对象集合之间的关联、相关性、或因果结构,通过分
析结果来引导销售及其他商务决策的制定。其典型应用包括购物篮分析、分类设
计等。例如:哪些商品频繁的被顾客同时购买,这样可以有选择的安排货架。
Apriori算法是关联规则挖掘算法中最常用的一种,它采用的是一种递归策略。
(二)分类与预测
可以用于提取描述重要数据类的模型或预测未来的数据趋势。分类的目标是
根据数据已有的类别归纳出每一类的一般性描述。而预测则是建立连续值函数模
型及分布趋势识别。最常用的分类算法是决策树方法,该方法对于小的数据集是
适合的,当数据集非常大时,由于计算量太大而无法应用,相关的改进方法有统
计和粗糙集方法、神经网络方法、贝叶斯方法等。
例如:银行保存着各房贷人员的记录,根据还贷能力和信誉程度,银行将房
贷人员记录分成三类:良好、一般、较差,并且把还贷能力和信誉标记赋给各个
记录。分类分析就是分析该数据库的记录数据,对每个信誉等级做出准确描述或
挖掘分类规则。分类和预测的相似点在于首先构建一模型,然后用模型预测未知
值。在构建预测模型时,常采用的形式有:线性回归、多元回归、非线性回归、
其他回归模型。
(三)聚类分析
数据仓库与数据挖掘是将物理或抽象对象的集合分组成为由相似对象组成
的多个类,同一类中的对象彼此相似,与其他类中的对象彼此相异。聚类分析中
要划分的类是未知,通过聚类能发现数据属性之间有趣的相互系。
聚类分析有以下几种算法:(1)partitioningmethod(划分方法):给
定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表
示一个聚簇,且kn。为了达到全局最优,基于划分的聚类会要求穷举所有可能的
划分,现在很多应用都采用了比较流行的两个启发式方法:(i)k-平均算法(ii)
k-中心点算法。这些算法已经被加入到许多统计分析软件包或系统中。(2)
hierarchicalmethod(层次方法):对给定数据对象集合进行层次的分解。根
据分解的形成不同,层次方法可以分为凝聚的和分裂的。凝聚的层次方法是一种
自底向上的分析方法,一开始将每个对象作为单独的一个簇,然后相继地合并相
近的对象或簇,达到某一个终止条件或所有的对象合并在一个簇中。分裂的层次
方法是一种自顶向下的分析方法,一开始将所有对象置于一个簇中,在迭代的每
一步使一个簇被分裂为更小的簇,直到达到一个终止条件或每个对象在单独的一
个簇中。但是层次方法存在着缺陷:一旦一个步骤完成,它就不能被撤消,这样
它就不能更正错误的决定。有两种方法可以改进层次聚类的结果:(1)在每个
层次划分时,仔细分析对象之间的联接。(2)综合层次凝聚和迭代的重定位方
法,首先用凝聚的自底向上的分析算法,然后进行迭代的重定位来改进结果。(3)
density-badmethod(基于密度的方法):基于密度的方法能够解决划分方
法只能发现球状簇而发现任意形状的簇上遇到困难的问题。该方法的主要思想是,
只要临近区域的密度超过某个域值,就继续聚类。经典的算法有DBSCAN和OPTICS。
(4)grid-badmethod(基于网格的方法):这种方法采用一个多分辨率的
网格数据结构,把对象空间量化为有限数目的单元,形成网格结构,所有聚类分
析都在网格上进行。该方法主要优点是处理速度快,它的处理时间仅依赖于量化
空间中每一维上的单元数目,而独立于数据的数目。经典的算法有STINC。(5)
model-badmethod(基于模型的方法):为每个簇假定一个模型,寻找数据对
给定模型的最佳拟合,该方法可以通过构建反映数据点空间分布的密度函数来定
位聚类。
评判聚类算法的标准有:能够适用于不同的数据类型和大的数据量;能够发
现不同类型的聚集;对噪声数据或数据不同的顺序不敏感;对领域知识的要求尽
量少;模型可解释。
五、有关数据仓库与数据挖掘的一些成功应用领域
一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目
标市场,并决定哪些市场活动将在后续的几个月有最大的效果。数据需要包括竞
争对手的市场活动,信息和当地医疗系统的信息一样。结果可以通过广域网分发
到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议。
随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用
于特定的销售环境。
一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信
用卡中最感兴趣的产品。使用一个小型的测试邮件,就可以确定一个客户对新产
品的亲和力属性。最近的项目已经表明,采用超常规的方法对指定目标的邮寄活
动,可以节省20倍的费用。
一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服
务的最好模式。用数据挖掘来分析他自己的客户体验,该公司可建立唯一的分
段以确定高位值的预期。对诸如由Dun&Bradstreet提供的那些一般商务数据
使用这些分段可以产生一张按地区排列的优先列表。
一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流
程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记
和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的
运输商推荐策略。
每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的
关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集
中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策
略。
综上所述,在现代社会中,计算机软硬件的飞速发展,以及数据采集设备和
存储介质的层出不穷,极大的推动了数据库和信息产业的发展,使得大量数据和
信息存储用于数据分析、事务管理和信息检索。数据挖掘的任务就是从存放在数
据库、数据仓库中的大量数据中发现有用的信息。数据仓库技术是为了有效的把
数据集成到统一的环境中以提供决策型数据访问的各种技术的总称。数据仓库技
术的发展与数据挖掘有着密切的关系,数据仓库的发展是促进数据挖掘越来越热
的原因之一。数据挖掘也不一定需要建立在数据仓库基础上,可以是数据仓库的
一个逻辑上的子集,而不一定非得是物理上单独的数据库。但以数据仓库为基础,
对于数据挖掘来说源数据的预处理将简化许多而且数据仓库可以很好地满足数
据挖掘对数据量的巨大需求。总之,数据挖掘技术的应用前景广阔,在未来更加
激烈的市场竞争中,拥有数据挖掘技术必将会赢得更多的商机。
本文发布于:2022-10-18 13:06:59,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/82/314889.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |