习题1
1.选择题
(1)下列哪个不是大数据的特征?( D )
A. Volume
B. Variety
C. Velocity
D. Variance
(2)下列不属于大数据技术的是( C )。
A. 大数据采集技术
B. 大数据存储及管理技术
C. 财务报表分析技术
D. 大数据分析及挖掘技术
(3)下列不属于Spark生态系统的是( B )。
A. Spark Streaming
B. Storm
C. Shark SQL
D. Spark R
(4)下列适合Spark大数据处理场景的是( D )。
A. 复杂的批处理
B. 基于历史数据的交互式查询
C. 基于实时数据流的数据处理
D. PB级的数据存储
(5)下列不是Spark的部署模式的是( C )。
A. 单机式
B. 单机伪分布式
C. 列分布式
D. 完全分布式
2.操作题
使用Hadoop用户名登录Linux系统,启动Hadop,使用Hadoop提供的Shell完成如下操作:
(1)在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件,并在该文件中随意输入一些内容,然后上传到HDFS的“/data/input”目录下。
$vi /home/
$ hdfs dfs –put /home/ /data/input/
(2)在spark-shell中读取Linux系统的本地文件“/home/”,然后统计出文件的行数。
$ cd /usr/local/spark
$./bin/spark-shell
scala>val File("file:///home/")
scala&unt()
(3)在spark-shell中读取HDFS系统文件“/data/”(如果文件不存在,请先创建),然后统计出文件的行数。
scala>val File("hdfs://localhost:9000/ur/")
scala&unt()