数据挖掘技术知识点整理

更新时间:2023-06-17 09:23:58 阅读: 评论:0

数据挖掘技术知识点整理
ch01 绪论
课内重点
Q1. 数据仓库的四个特征
⾯向主题
集成的
不可修改
随时间变化
Q2. 数据仓库数据的粒度与组织
数据的粒度是指数据仓库的数据单元中所保存数据的综合程度
数据的综合程度越⾼,其粒度越粗
数据仓库存储的数据粒度越细,则占⽤的存储空间越⼤,但提供的更细节的查询
Q3. 知识发现概念
埃默里
定义:知识发现(KDD)就是采⽤有效算法从⼤量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有⽤乃⾄最终可理解的模式(Pattern)的⾮平凡过程
过程:
数据采集
阿胶珠的功效与作用数据预处理
数据挖掘
知识评价
知识应⽤
知识发现过程中⼀个特定⽽关键的步骤:数据挖掘
Q4. 数据挖掘的数据来源
数据库
传统数据库(DB)
数据仓库(DW)
空间数据库(Spatial Databa)
时态数据库和时间序列数据库(Temporal Databa and Time-Series Databa)
多媒体数据库(Multimedia Databa)
⽂本数据库(Text Databa)
⾮数据库
数据流(Data Stream)
Web数据
Q5. 数据挖掘的步骤
数据抽取
数据预处理
数据存储
神奇的书包
挖掘实施
评估解释
知识应⽤
Q6. 数据仓库与数据挖掘的区别
结论:数据仓库不是为数据挖掘⽽⽣的,反过来数据挖掘也不是为数据仓库⽽活。它们是⽀持决策的两个相对独⽴的知识体系
Q7. 数据仓库与数据挖掘的联系duanxin
⼀个中⼼(决策⽀持),两个基本点(DW,DM)
DW为DM提供了更好的、更⼴泛的数据源
DW为DM提供了新的数据⽀持平台
DW为DM提供了⽅便
DM为DW提供了更好的决策⽀持⼯具
DM为DW的数据组织提出了更⾼的要求
DM为DW提供了⼴泛的技术⽀持
课后练习题
4. 简述数据仓库的定义
答: 数据仓库是⼀个⾯向主题的、集成的、不可修改的、随时间变化的,⽀持管理决策的数据集合
5. 简述数据库与数据仓库的关系
答:数据仓库,是在数据库已经⼤量存在的情况下,为了进⼀步挖掘数据资源、为了决策需要⽽产⽣的,数据仓库的出现,并不是要取代数据库。⽬前,⼤部分数据仓库还是⽤关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成的
相关:
数据库与数据仓库的区别:
数据库是⾯向事务设计的,数据仓库是⾯向主题设计的
数据库⼀般存储在线交易数据,数据仓库存储的⼀般是历史数据
数据库是为捕获数据⽽设计,数据仓库是为分析数据⽽设计
事务系统是实时的,⽽分析系统是事后的
6. 简述数据仓库特征
答:
不可修改
随时间变化
11. 简述数据挖掘的主要步骤
答:
问题定义
数据准备
挖掘实施
评估解释初中生优秀作文
知识应⽤
ch02 数据仓库原理
课内重点
Q1. 多数据源的问题
数据不⼀致:数据之间的⽭盾性和不相容性。如职务升迁了,但⼯资数据却没有改变
属性差异:性别属性有的取“男”/“⼥”,长度为2;有的取“1”/“0”,长度为1
数据重复:数据源中存在两条或多条完全相同的记录,或者同⼀个数据冗余地存在于多个数据源中
数据不完整:某些属性的值可能是缺失的,甚⾄是错误的数据
数据噪声:测量数据时遇到的随机或其它不确定因素,导致被测量的数据产⽣了偏差或错误
⾼维数据:为较全⾯的描述实体,原始数据通常都使⽤了较多属性
模式不统⼀:将集成为单⼀数据集的多个数据源的模式不同。如“常住⼈⼝数据”和“暂住⼈⼝数据”两张表,前者有128个属性,后者也有98个属性
数据不平衡:数据集中某⼀类样本的数量明显少于其他类型样本的数量
Q2. 数据预处理
定义:在多数据源集成为统⼀数据集之前进⾏的数据清洗、数据变换、数据规约等数据处理过程
⽬的:清除多数据源集成存在的问题,为数据仓库或数据挖掘提供⼀个完整、⼲净、准确、且有针对性的数据集合兔属相
Q3. 数据清洗
定义:发现并纠正数据源,即原始数据中存在的问题或错误的过程,包括检查数据⼀致性,处理⽆效值、填补缺失值、以及过滤掉那些不符合要求的数据等
属性的处理:重命名属性统⼀属性处理主键属性派⽣新属性选择相关属性空值的处理:⼈⼯填补忽略记录忽略属性使⽤默认值使⽤平均值使⽤预测值数据噪声处理等深分箱法等宽分箱法⽤户⾃定义区间按平均值平滑按边界值平滑按中值平滑不平衡数据处理过抽样
⽋抽样
Q4. 等深分箱法
计算思路:把数据集中的数据按照排列顺序分配到k个箱⼦中(k=1,2,…,k)当k 整除 n时,令p=n/k,则每个箱⼦都有p个数据,即
第1个箱⼦的数据为:a ,a ,…,a ;
第2个箱⼦的数据为:a ,a ,…,a ;
……
低热量饮食
第k个箱⼦的数据为:a ,a ,…,a ;当k 不能整除 n时,令p=n/k [向下取整],q=n-k*p,则可让前⾯q个箱⼦有p+1个数据,后⾯k-q个箱⼦有p个数据,即第1个箱⼦的数据为:a ,a ,…,a ;
第2个箱⼦的数据为:a ,a ,…,a ;;
……
第k个箱⼦的数据为:a ,a ,…,a 也可让前⾯k-q个箱放p个数,后⾯q个箱放p+1个数据
例题:
设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请⽤等深分箱法将其分成k=4个箱⼦
Q5. 等宽分箱法
计算思路:
把数据集最⼩值和最⼤值形成的区间分为k个左闭右开的⼦区间(最后⼀个除外)I ,I ,…,I 。如果a  属于 I 就把数据a 放⼊第j个箱⼦12p p+1p+22p n-p+1n-p+2n 12p+1p+2p+32p+2n-p+1n-p+2n
12k i j i
八拜之交的意思
例题:
设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请⽤等深分箱法将其分成k=4个箱⼦
Q6. 数据变换
数据聚集:对数据按照管理或挖掘需要进⾏汇总
数据概化:⽤较⾼层次的数据代替较低维度层次的数据
数据规范化:将原始数据按照⼀定的⽐例缩放,使之落⼊⼀个特定的区间
最⼩—最⼤规范化
零—均值规范化
⼩数定标规范化
Q7. 数据规约
定义:⽤精简数据表⽰原始数据的⽅法,且归约后数据量通常⽐原始数据⼩很多,但具有接近甚⾄等价于原始数据表达的信息维归约:减少描述问题的随机变量个数
属性归约:减少描述问题的数据集的属性个数
数量归约:⽤较少的数据表⽰形式替换原始数据
数据压缩:使⽤变换⽅法得到原数据的归约或“压缩”表⽰,图像压缩技术就是⼀种典型的数据压缩⽅法
Q8. 数据仓库的概念模型
定义:对现实管理决策中各个主题及其特征的数据抽象表⽰
特点:
能够⽐较真实地模拟或抽象表⽰⽤户的决策主题
表⽰⽅法简单直观且易于⽤户理解
与计算机系统⽀持的具体数据模型⽆关
易于向数据仓库的逻辑数据模型转换
Q9. 星型模型

本文发布于:2023-06-17 09:23:58,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/974488.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据仓库   属性   数据库
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图