《大数据技术》在线平时作业2-00001
试卷总分:100 得分:100
一、单选题 (共 10 道试题,共 50 分)
1.( )可以在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类
A.距离准则
B.Fisher准则
C.贝叶斯准则
D.以上所有
2.大数据的4V特征中的Variety是指( )。
A.价值密度低
B.处理速度快
C.数据类型繁多
D.数据体量巨大
3.语义分析是从文本和语音数据中由( )提取有意义的信息的实践。
A.机器
B.人工
C.数据挖掘
D.数值分析
4.每个分析项目都应该毫无例外地从一个清晰定义好的( )开始。
A.业务目标
B.方针政策
C.利润指标
D.质量指标
5.Hadoop 作者
A.Hadoop
B.Nutch
C.Lucene
D.Solr
6.可以用3个特征相结合来定义大数据:即( )。
A.数量、数值和速度
B.庞大容量、极快速度和多样丰富的数据
C.数量、速度和价值
D.丰富的数据、极快的速度、极大的能量
7.( )倾向于在分析方面有巨大投资的团队中工作,或者在提供分析服务的组织中担任咨询师和开发者
A.显示
B.加载
C.打印
D.释放
8.下列( )不是预测分析的主要作用。
A.识别、获取、过滤、提取、清理和聚合
B.打印、计算、过滤、提取、清理和聚合
C.统计、计算、过滤、存储、清理和聚合
D.存储、提取、统计、计算、分析和打印
9.语义检索是指在( )组织的基础上,从知识库中检索出知识的过程,是一种基于这个体系,能够实现知识关联和概念语义检索的智能化的检索方式。
A.网络
B.信息
C.字符
D.知识
10.时间序列图可以分析在固定时间间隔记录的数据,它通常用( )图表示,x轴表示时间,y轴记录数据值。
A.圆饼
B.折线
C.热区
D.直方
二、多选题 (共 5 道试题,共 25 分)
11.下列关于Bloom Filter的描述正确的是?
A.是一个很长的二进制向量和一系列随机映射函数
B.没有误算率
C.有一定的误算率
D.可以在Bloom Filter中删除元素
12.在网络爬虫的爬行策略中,应用最为基础的是
A.深度优先遍历策略
B.广度优先遍历策略
C.高度优先遍历策略
D.反向链接策略
E.大战优先策略
13.下列哪个是 Hadoop 运行的模式?
A.单机版
B.伪分布式
C.分布式
14.HBase性能优化包含下面的哪些选项?
A.读优化
B.写优化
C.配置优化
D.JVM优化
15.大数据人才整体上需要具备( )等核心知识。
A.数学与统计知识
B.计算机相关知识
C.马克思主义哲学知识
D.市场运营管理知识
E.在特定业务领域的知识
三、判断题 (共 5 道试题,共 25 分)
16.因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。
17.Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。
18.Ganglia 不仅可以进行监控,也可以进行告警。
19.集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。
20.Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。