数据挖掘试卷一

更新时间:2023-05-25 01:05:39 阅读: 评论:0

                  数据挖掘整理(熊熊整理-----献给梦中的天涯)
单选题
1.下面哪种分类方法是属于神经网络学习算法?( )
A. 判定树归纳
B. 贝叶斯分类
C. 后向传播分类
D. 基于案例的推理
2.置信度(confidence)是衡量兴趣度度量(  A )的指标。
A、简洁性
B、确定性
C.、实用性
D、新颖性
3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)
  A. 根据内容检索    B. 建模描述
  C. 预测建模  D. 寻找模式和规则
4.数据归约的目的是(    )
整理英文A、填补数据种的空缺值
B、集成多个数据源的数据 
C、得到数据集的压缩表示
D、规范化数据
5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?
A.数据清理
B.数据集成
C.数据变换
D.数据归约
6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B)
A 第一个      B  第二个  C 第三个  D 第四个
7.下面的数据操作中,(    )操作不是多维数据模型上的OLAP操作。
A、上卷(roll-up)
B、选择(lect)
C、切片(slice)
D、转轴(pivot)
8.关于OLAP和OLTP的区别描述,不正确的是: (C)
A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.
B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
9.下列哪个描述是正确的?(        )
A、分类和聚类都是有指导的学习
B、分类和聚类都是无指导的学习
C、分类是有指导的学习,聚类是无指导的学习
D、分类是无指导的学习,聚类是有指导的学习
10简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )
内蒙分数线
  A、层次聚类      B、划分聚类      C、非互斥聚类      D、模糊聚类
11将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
  A. 频繁模式挖掘    B. 分类和预测    C. 数据预处理    D. 数据流挖掘
12 什么是KDD? (A)
  A. 数据挖掘与知识发现    B. 领域知识发现
  C. 文档知识发现      D. 动态知识发现
为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)
  A. 探索性数据分析    B. 建模描述
  C. 预测建模  D. 寻找模式和规则
判断题
1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)
2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)
4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)hlookup
5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)
6. 离群点可以是合法的数据对象或者值。    (对)
7. 离散属性总是具有有限个值。        (错)
8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)
延时自拍9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)
10. 特征提取技术并不依赖于特定的领域。      (错)
11. 序列数据没有时间戳。      (对)
12. 定量属性可以是整数值或者是连续值。     (对)
13. 可视化技术对于分析的数据类型通常不是专用性的。    (错)
14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)
15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)
巧克力棒节16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)
17. 数据仓库中间层OLAP服务器只能采用关系型OLAP          (错)
18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)
19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.  (错)
21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)
22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。
23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错
24. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对)
爱心企鹅25. 具有较高的支持度的项集具有较高的置信度。(错)
26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。  (错)
27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)
28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)
29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。  (错)
30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error).    (对)
31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)
32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)    (错)
33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)
34. 聚类分析可以看作是一种非监督的分类。(对)
35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错
36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)
37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)
38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)
39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)
简答题
1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分)
答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分)做饭的说说
使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)
使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2分)
2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(6分)
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)
答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管
其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)
层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)
层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。(2分)
扇画4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)
答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:
电子商务提供海量的数据:
“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;

本文发布于:2023-05-25 01:05:39,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/764915.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   属性   进行   分类   使用
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图