目录
§第1章 数据挖掘基本理论 1
§1.1 数据挖掘的产生 1
§1.2 数据挖掘的概念 2
§1.3 数据挖掘的步骤 3
§第2章 系统分析 3
§2.1 系统用户分析 3
§2.2 系统功能分析 4
§2.3 系统算法分析 4
§第3章 数据管理 5
§3.1 数据管理的方法 5
§第4章 数据采集 6
§4.1 数据采集的方法 6
§第5章 数据预处理 6
§5.1 数据预处理的方法 6
§第6章 数据挖掘 6
§6.1算法描述与流程图 6
§6.1.1 算法描述 6
§6.1.2 算法流程图 8
§第7章 结果显示与解释评估 8
§7.1结果显示界面的具体实现 8
§7.1.1 系统主界面的具体实现 9
§7.1.2 超市销售记录界面的具体实现 9
§7.1.3 数据采集界面的具体实现 10
§7.1.4 挖掘条件界面的具体实现 11
§7.1.5 数据挖掘界面的具体实现 12
§7.1.6 帮助界面的具体实现 13
§7.1.7 系统主界面运行后显示的结果 13
学习体会 14
参考文献 15
§第1章 数据挖掘基本理论
§1.1 数据挖掘的产生
随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏知识”。为有效解决这一问题,自二十世纪年代开始,数据挖掘技术逐步发展来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以为是数据管理与分析技术的自然进化产物,如图1.1所示。
自八十年到中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型强大的数据库喜用悄然兴起,并提出了许多先进的数据模型:扩展关系模型、面向对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。
图1-1 数据挖掘进化过程示意描述
§1.2 数据挖掘的概念
数据挖掘(Data Mining,简称 DM),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,一下给出一个被普遍采用的定义描述:
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Databa,简称 KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。
§1.3 数据挖掘的步骤
整个知识挖掘(KDD)过程是有若干挖掘步骤组成的,而数据挖掘近视其中的一个主要步骤。整个知识挖掘的主要步骤有:
数据清洗(data clearning),其作用就是清除数据噪声和与挖掘主题明显无关的数据;
数据集成(data integration),其作用就是将来自多数据源中的相关数据组合到一起;
数据转换(data transformation),其作用就是将数据转换为易于进行数据挖掘的数据存储形式;
数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;
模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识;
知识表示(knowledge prentation),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前工业
界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此本书也广义地使用“数据挖掘”一词来表示整个知识挖掘过程,即数据挖掘就是一个从数据库、数据仓库或其它信息资源库的大量数据中发掘出有趣的知识。
§第2章 系统分析
§2.1 系统用户分析
利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识。比如:作为一个商场主管,肯定想要知道商场顾客的购物习惯;尤其是希望了解在(一次)购物过程中,那些商品会在一起被(顾客所)购买。为帮助回答这一问题,就需要进行市场购物分析,即对顾客在商场购物交易记录数据进行分析。所分析的结果将帮助商场主管制定有针对性的市场营销和广告宣传计划,以及编撰合适的商品目录。比如:市场购物分析结果将帮助商家对商场内商品应如何合理摆放进行规划设计。其中一种策略就是将常常一起购买的商品摆放在相邻近的位置,以方便顾客同时购买这两件商品;如:如果顾客购买电脑的同时常也会购买一些金融管理类软件,那么将电脑软件摆放在电脑硬件附近显然将有助于促进这两种商品的销售;而另一种策略则是将电脑软件与电脑硬件分别摆放在商场的两端,这就会促使顾客在购买两种商品时,走更多的路从而达到诱导他们购买更多商品的目的。比如:顾客在决定购买一台昂贵电脑之后,在去购买相应金融管理软件的路上可能会看到安全系统软件,这时他就有可能购买这一类软件。市场购物分析可以
帮助商场主管确定那些物品可以进行捆绑减价销售,如一个购买电脑的顾客很有可能购买一个捆绑减价销售的打印机。