数据挖掘期末复习

更新时间:2023-06-20 06:29:24 阅读: 评论:0

《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类
2.知识发现过程包括哪些步骤? 
数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示
3.什么是概念分层?
一个概念分层定义一个映射序列,将底层概念到更一般的高层概念。
4.多维数据模型上的OLAP操作包括哪些?
上卷、下钻、切片和切块、转轴、其它OLAP操作
5.OLAP望着服务器类型有哪几种?
关系OLAP(ROLAP)服务器、多维OLAP(MOLAP)服务器、
混合OLAP(HOLAP)服务器、特殊的SQL服务器
6.数据预处理技术包括哪些
数据清理、数据集成、数据变换、数据归约
7.什么是数据清理?项目启动会发言稿
数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性
8.什么是数据集成?
数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。
这些源可能包括多个数据库、数据方或一般文件。
9.什么是数据归约?
数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小
10.数据清理的内容包括哪些?
遗漏值、噪音数据、不一致数据
11.将下列缩略语复原
OLAP——on-line analytical processing
DM——data mining
KDD——knowledge discovery in databas
OLTP——on-line transaction processing
DBMS——databa management system
DWT——discrete wavelet transform
12.什么是数据挖掘?
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的,但又有潜在有用的信息和知识的过程。
13.什么是关联规则?什么是强关联规则?强关联规则都是有趣的吗?
关联规则:关联规则挖掘寻找给定数据集中项之间的有趣联系。
强关联规则:同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则称为强关联规则。
都是有趣的
14.什么是可信度
规则的蕴涵强度估计
15.什么是支持度?
出现规则模式的任务相关元祖所占的百分比
16.数据仓库的主要特征是什么?
秋悲面向主题的、集成的、时变的、非易失的数据集合。
17.什么是数据集市?
数据及时包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定主题。
18.数据库中的知识发现过程由哪几个步骤组成?
(1)数据准备,(2)数据挖掘,(3)结果表达和解释
19.典型的数据挖掘系统有哪几个主要成分
数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,配置数据仓库。
21.在数据挖掘系统中,为什么数据清理十分重要?
脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
表格统计
滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码。
23.数据清理时,对空缺值有哪些处理方法?
忽略元祖、人工填写遗漏值、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元祖属同一类的所有样本的平均值、使用最可能的值填充遗漏值
24.什么是数据变换?包括哪些内容?
数据变换将数据转换成适合于挖掘的形式。包括内容有,平滑、聚集、数据泛化、规范化、属性构造
25.数据归约的策略包括哪些
数据方聚集、维归约、数据压缩、数值压缩、离散化和概念分层
26.提高数据挖掘算法效率有哪几种思路?
减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法
27.假定属性income的最小值与最大值分别为¥12000和¥98000,如映射income到区间[0.0,1.0],根据min-max规范化,income值¥73600将变为  3631/551 
28.假定属性income的平均值和标准差分别为¥54000和¥16000。使用Z-score规范化,值¥73600被转换为 1.225 
29.假定A的值由-986到917。A的最大绝对值为986,使用小数定标规范化,-986被规范化为  -0.986  
30.从结构角度来看,有三种数据仓库模型_企业仓库、数据集市、和虚拟仓库_。
31.什么是聚类分析?它与分类有什么区别?
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
32.与数据挖掘类似的术语有:
数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。
33.解释下列术语34.翻译下列术语
Data Mining 数据挖掘
Data warehousing 数据仓库
Data Mart 数据集市
drill-down 下钻
roll-up 上卷
OLAP 联机分析处理
Data cube 数据立方体
Association rule 关联规则
Data cleaning 数据清理
Data integration 数据集成
Data transformation 数据变换
Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。
A 上卷    B 下钻    C 切片    D切块
36.可以对按城市汇总的销售数据进行___A___,来观察按国家总的数据。
A 上卷    B 下钻    C 切片    D切块
37.通过不太详细的数据得到更详细的数据,称为____B_大龄考研___。
A 上卷    B 下钻    C 细化    D维规约
38.三层数据仓库结构中,从底层到尾层分别是_数据仓库服务器、OLAP服务器、客户_。
*39.已知事务数据库D,假定最小支持度为2,求所有的频繁项集和它们的支持度。
第一步  由数据库D求得候选数据项集C1,项ABCDE的次数分别为23313
第二步:根据最小支持度为2,生成一维数据项集L1
第三步:为生成L2,通过L1与自己连接产生候选2-项集的集合,记为C2,再由最小支持度得到L2
第四步:从L2生成C3,首先两个具有相同首项的数据项:{BC}{BE}可以确定下来,在考察{BC}{BE}的尾项生成的数据项集周游列国{CE}是否满足最小支持度,结果成立。这样{BCE}
所有二维子集都是频繁数据项集,所以{BCE}是候选数据项集。同时,从L2也得不到其他三维候选数据项。这样C3就确定了,同理求出矜持的意思解释L3
    到此为止,得不到更高维的数据项集了,即整个频繁数据项集就确定了。
40. 类比较过程有哪几个步骤?
(1)数据收集
通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类。
(2)维相关分析
使用属性相关分析方法,使我们的任务中仅包含强相关的维。
(3)同步概化
同步的在目标类和对比类上进行概化,得到主目标类 关系/方体 主对比类 关系/方体。
(4)导出比较的表示
用可视化技术表达类比较描述,通常会包含对比度量,反映目标类与对比类间的比较。
41. 给出数据仓库的某种概念模式图,会用DMQL语句描述该概念模式,包括事实与维。
自顶向下、数据源、数据仓库、商务查询。
42.常用的四种兴趣度的客观度量。
简单性  确定性  实用性  新颖性
43.四种常用的概念分层类型。
模式分层、集合分组分层、操作导出的分层、基于规则的分层
福建霞浦旅游攻略
44.各种DMQL子句的表述
1. u databa <databa_name> or u data warehou<data_warehou_name>// 
u
子句将数据挖掘任务指向说明的数据库或数据仓库
2. from<relation(s)/cube(s)>[where<condition>]//
from where子句分别指定所涉及的表或数据立方体和定义检索数据的条件.
 
3. in relevance to <attribute_or_dimension_list>:
该子句列出要探查的属性和维.
 
4. order by <order_list>:order by
子句说明任务相关的数据排序的次序.
 
5. group by<grouping_list>: group by
子句说明数据分组的标准.
 
6. having <condition>:having
子句说明相关数据分组条件.
45.如何理解现实世界的数据是肮脏的
不完整的、含噪声的、不一致的、重复的
46.多维数据仓库有哪几种概念模型?
星形模型、雪花模型、或事实星座模式
48. 在多路数组聚集方法中,为尽量少占内存,各平面要按什么顺序排列进行计算?
将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。
49. 全自动的数据挖掘系统是可行吗?
50. 什么决定所使用的数据挖掘功能?
挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。
知识类型包括概念描述(特征和区别)、关联、分类、预测、聚类和演变分析
51.为定义量化特征规则,人们引入(简洁性)权作为兴趣度度量。实用性、新颖性、确定性
52.为定义量化区分规则,人们引入(确定性)权作为兴趣度度量。
53.Apriori算法的性质是什么?
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

本文发布于:2023-06-20 06:29:24,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/996520.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图