QQ:2621578584
南开22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003(标准答案)

时间:2023/4/8点击: 349 次

可做奥鹏院校所有作业、毕业论文咨询请添加 QQ:2621578584
微信:apgzs888
22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003(标准答案)
试卷总分:100  得分:100
一、单选题 (共 20 道试题,共 40 分)
1.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A.普通值
B.异常值
C.不一致的值
D.重复值
答案:A

2.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
答案:A

3.以下哪个不是处理缺失值的方法()
A.删除记录
B.按照一定原则补充
C.不处理
D.随意填写
答案:D

4.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:A

5.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A

6.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
答案:A

7.单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
答案:A

8.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答案:B

9.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
答案:B

10.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
答案:C

11.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
答案:B

12.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
答案:C

13.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
答案:B

14.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
答案:D

15.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
答案:B

16.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
答案:C

17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
答案:A

18.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
答案:C

19.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:C

20.通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
答案:A

二、多选题 (共 10 道试题,共 20 分)
21.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
答案:BC

22.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
答案:ABC

23.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
答案:AB

24.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答案:ABC

25.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答案:AD

26.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答案:ABC

27.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:ABCD

28.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
答案:ABD

29.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
答案:AB

30.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
答案:ABCD

三、判断题 (共 20 道试题,共 40 分)
31.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
答案:正确

32.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
答案:正确

33.具有双隐层的感知机足以用于解决任何复杂的分类问题。
答案:正确

34.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
答案:正确

35.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
答案:错误

36.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
答案:正确

37.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
答案:错误

38.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
答案:正确

39.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
答案:错误

40.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
答案:正确

41.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
答案:正确

42.交叉表可以帮助人们发现变量之间的相互作用。
答案:正确

43.支持度是衡量关联规则重要性的一个指标。
答案:正确

44.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
答案:正确

45.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
答案:正确

46.uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同
答案:正确

47.不满足给定评价度量的关联规则是无趣的。
答案:错误

48.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
答案:错误

49.由不同的距离度量所确定的最近邻点是不同的
答案:正确

50.决策树分类时将该结点的实例强行分到条件概率大的那一类去
答案:正确
在线作业 离线作业 论文咨询 在线考试 旺旺客服 微信二维码