数据清洗期末复习题
一、选择题
1、 大数据的起源是()。 (单选题)
A:金融 B:电信 C:互联网 D:公共管理
2、 大数据的最显著特征是( )。 (单选题)
衣衫褴褛的英语A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高
3.支撑大数据业务的基础是()。(单选题)
A.数据科学B。数据应用C。数据硬件D。数据人才
4、 数据清洗的方法不包括( )。 (单选题)
A:缺失值处理 B:格式内容错误处理 C:逻辑错误处理 D:重复数据记录处理
5、 数据仓库的最终目的是( )。 (单选题)
A:收集业务需求 B:建立数据仓库逻辑模型
C:开发数据仓库的应用分析 D:为用户和业务部门提供决策支持
6、数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代价,不包括()。(单选题)
A:投入的时间B:人力成本C:物力成本D:数据来源
7、在数据清洗中,对于json和xml描述错误的是()。(单选题)
A:JSON 和XML都是纯文本
B:XML传输一般比JSON更短、速度更快
C:XML有结束标签而JSON没有
D:JSON和XML都具有“自我描述性”
8、在数据清洗中,对于“脏”数据源需要进行操作处理,不包括以下哪个方面:()。education pays(单
选题)
A:完全清除某些输入字段
B:自动替换掉某些错误数据值
C:对分配和调整的规则进行完备的文档记录
D:补入一些丢失的数据
9、在数据清洗中,下面()不是ETL子系统。(单选题)
A:抽取类子系统
B:清洗和更正数据子系统
C:数据发布类子系统
D:数据加载子系统
10、在数据清洗中,下面数据清洗操作的注意事项错误的是()。(单选题)
A: 同一份数据清单中避免出现空行和空列;
B:数据清单中的数据尽可能细化,不要使用数据合并;
C: 构造单行表头结构的数据清单,不要有两行以上的复杂表头结构;
惊喜的英语怎么写
D: 单元格的开头和末尾可以输入空格或其他控制符号;
11、在数据清洗中,下面不是Kettle组件的是()。(单选题)
2014英语二真题答案A:Spoon
B:Pan
C:Chef
D:chendifficult的名词
12、在数据清洗中,透视操作是OpenRefine的主要工作方式之一,下列透视错误的是()。(单选题)
A:时间线透视
B:散光图透视
C:数字透视
D:文本透视
13、在数据清洗中,下列()不是数据质量评估的指标。(单选题)
A:完整性
B:准确性
C:唯一性
D:一致性
14.在数据清洗中,DOM树结构不包括( )。 (单选题)
A.文档 B.内容
C.节点 D.元素
pem15.在数据清洗中,下列( )问题需要采取半自动+人工方式结合进行清洗。(单选题)
A.身份证号码出现非数字和X的情况
B.去除重要性低的字段
C.删除数据
D.分裂数据
16.在数据清洗中,下列( )不是数据检验。folkdance(单选题)
A.数据类型检验
B.正则表达式约束检验
C.调试检验
havenD.查询表检验
17.在数据清洗中,增量抽取机制不适用于( )特点的数据表。(单选题)
A.源表变化数据相对数据总量较小
B.目标表需要记录过期信息或者冗余信息
C.业务系统能直接提供增量数据
D.源表变化数据不规律
18.在数据清洗中,Kettle数据加密类型不包括( )。 (单选题)
A.对称加密 B.PGP加密流 C.PGP解密流 D.MD5加密
19.在数据清洗中,数据排重需要技巧,排重依据是( )。(单选题)
A.准确性 B.唯一性 C.可靠性 达到目标 D.完整性
20.在数据清洗中,数据转换的过程中不会出现( )错误。(单选题)
A.命名错误 B.格式错误 C.结构错误 D.模型错误
二、填空题
1、Kettle数据加密包括4种类型:__________、__________、__________、__________。
2、数据仓库(Data Warehou, DW)是基于信息系统业务发展需要,基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用技术,目标是通过提供__________、__________的数据存储来有效支持高层决策分析。
3、在数据清洗中有两种类型的数据转换:__________、__________。
4、ETL,全称为Extraction-Transformation-Loading,中文名为__________、__________和__________。
5、转换主要是针对数据的各种处理,其本质是一组图形化的数据转换配置的逻辑结构,一个转换由若干个__________和__________构成,转换文件的扩展名是__________。
6、作业是比转换更高一级的处理流程,基于工作流模型协调数据源、执行过程和相关依赖性的ETL活动,实现了功能性和实体过程的聚合,作业由__________、__________和__________组成,作业文件的扩展名是__________。
7、数据验证方法有__________、__________、__________、__________等。
三、判断题
1、大数据集的数据清洗是一个系统性的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。()
2、所有单元格默认的类型为数字型,单元格格式的改变不会改变数据类型本身,但单元格格式会影响新生成数据的类型。()
3、以文本形式存储的数字,在参与四则运算时会转变成为数字,结果为数字型;在参与函数运算时会忽略不计,但运算结果仍为数字型。()
4、OpenRefine最初叫作Freeba Gridworks。后来,该软件被谷歌收购,更名为Google
Refine,并发布了第2版。2013年10月,Google Refine被社区接管,并以OpenRefine为名进行了开源。()
5、Hawk是一种数据抓取和清洗工具,依据GPL协议开源,软件基Java实现,其前端界面使用WPF开发,支持插件扩展。()
韩语翻译在线
6、在kettle中可以使用两种方式读取和解析XML文件,分别是Get data from xml和 XML Input Stream (StAX)。()