技术数据降维知识40题(附答案)
摘要:本⽂例举了⼀个针对数据科学家的数据降维测试,测试总共有40道题,涉及的内容主要有PCA、t-SNE以及LDA 降维技术。想检验下⾃⼰对降维技术掌握的情况就赶快测测吧。
作者介绍
:数据科学家、IIIT Allahabad研究助理,热爱解决复杂的数据挖掘问题、了解更多关于数据科学和机器学习算法,⽬前致⼒于预测软件缺陷的项⽬。
领英:
Github:
博客:
注
PCA:主成分分析(Principal Component Analysis)
T-SNE:t-分布随机邻域嵌⼊(t-Distributed Stochastic Neighbor Embedding)
LDA:线性判别式分析(Linear Discriminant Analysis )
介绍
在处理现实⽣活中的问题时,数据科学家经常会遇到数百列及以上的数据集,并通过这些⼤型数据集构建预测模型,这会是⼀个较复杂的⼯程。幸运的是有降维技术的存在,降维是数据科学中的⼀项重要技术,任何数据科学家都必须具备该技能。这项技能测试测试你掌握的降维技术知识,测试问题包括PCA、t-SNE和LDA等主题。在还有更具挑战性的⽐赛。
共有582⼈参加该测试,以下问题涉及理论到实践的⽅⽅⾯⾯。
如果错过测试,可以在参加测试。
综合成绩
以下是分数的分布,这将有助于评估⾃⼰的表现:
你可以并查看⾃⼰的分数,以下是关于分配的⼀些统计数据。
总体分布
平均得分(所有分值的平均值):19.52
得分中位数(按顺序排列的中间值):20
模型得分(最常出现的得分):19
有⽤资源
有⽤资源
问题和答案
1)想象⼀下,机器学习中有1000个输⼊特征和1个⽬标特征,必须根据输⼊特征和⽬标特征之间的关系选择100个最重要的特征。你认为这是减少维数的例⼦吗?
A.是
B.不是
解答:(A)
2)[真或假]没有必要有⼀个⽤于应⽤维数降低算法的⽬标变量。
A.真
B.假
解答:(A)
LDA是有监督降维算法的⼀个例⼦。
3)在数据集中有4个变量,如A,B,C和D.执⾏了以下操作:
步骤1:使⽤上述变量创建另外两个变量,即E = A + 3 * B和F = B + 5 * C + D。
步骤2:然后只使⽤变量E和F建⽴了⼀个随机森林模型。
上述步骤可以表⽰降维⽅法吗?
A.真
B.假
解答:(A)
因为步骤1可以⽤于将数据表⽰为2个较低的维度。
4)以下哪种技术对于减少数据集的维度会更好?
A.删除缺少值太多的列
B.删除数据差异较⼤的列
C.删除不同数据趋势的列
D.都不是
解答:(A)
如果列的缺失值太多(例如99%),那么可以删除这些列。
5)[真或假]降维算法是减少构建模型所需计算时间的⽅法之⼀。
潮汕菜
孩子拉肚子怎么办A.真
B.假
解答:(A)
降低数据维数将花费更少的时间来训练模型。
6)以下哪种算法不能⽤于降低数据的维数?
A. t-SNE
B. PCA神话故事的特点
C. LDA
D.都不是
解答:(D)
所有算法都是降维算法的例⼦。
7)[真或假] PCA可⽤于在较⼩维度上投影和可视化数据。
A.真
B.假
解答:(A)
有时绘制较⼩维数据⾮常有⽤,可以使⽤前两个主要分量,然后使⽤散点图可视化数据。8)最常⽤的降维算法是PCA,以下哪项是关于PCA的?
1.PCA是⼀种⽆监督的⽅法
2.它搜索数据具有最⼤差异的⽅向
3.主成分的最⼤数量<=特征能数量
4.所有主成分彼此正交
A. 1和2
B. 1和3
C. 2和3
D. 1、2和3
E. 1、2和4
F.以上所有
F.以上所有
解答:(F)
9)假设使⽤维数降低作为预处理技术,使⽤PCA将数据减少到k维度。然后使⽤这些PCA预测作为特征,以下哪个声
明是正确的?
A.更⾼的“k”意味着更正则化
B.更⾼的“k”意味着较少的正则化
C.不知道
解答:(B)
较⾼的k导致较少的平滑,因此能够保留更多的数据特征,从⽽减少正则化。
查看历史记录10)在相同的机器上运⾏并设置最⼩的计算能⼒,以下哪种情况下t-SNE⽐PCA降维效果更好?
A.具有1百万项300个特征的数据集
B.具有100000项310个特征的数据集
C.具有10,000项8个特征的数据集
D.具有10,000项200个特征的数据集
解答:(C)
t-SNE具有⼆次时空复杂度。
11)对于t-SNE代价函数,以下陈述中的哪⼀个正确?
A.本质上是不对称的。
B.本质上是对称的。
C.与SNE的代价函数相同。
解答:(B)
SNE代价函数是不对称的,这使得使⽤梯度下降难以收敛。对称是SNE和t-SNE代价函数之间的主要区别之⼀。12)想像正在处理⽂本数据,使⽤单词嵌⼊(Word2vec)表⽰使⽤的单词。在单词嵌⼊中,最终会有1000维。现在想
减⼩这个⾼维数据的维度,这样相似的词应该在最邻近的空间中具有相似的含义。在这种情况下,您最有可能选择以下哪种算法?
A. t-SNE
B. PCA
C. LDA
D.都不是
解答:(A)
t-SNE代表t分布随机相邻嵌⼊,它考虑最近的邻居来减少数据。
13)[真或假] t-SNE学习⾮参数映射。
A.真
B.假
解答:(A)
t-SNE学习⾮参数映射,这意味着它不会学习将数据从输⼊空间映射到地图的显式函数。从该获取更多信息。14)以下对于t-SNE和PCA的陈述中哪个是正确的?
A.t-SNE是线性的,⽽PCA是⾮线性的
B.t-SNE和PCA都是线性的
我曾经走过
C.t-SNE和PCA都是⾮线性的
D.t-SNE是⾮线性的,⽽PCA是线性的
解答:(D)
选项D是正确的。从获取说明
15)在t-SNE算法中,可以调整以下哪些超参数?
散盘A.维度数量
B.平稳测量有效数量的邻居
C.最⼤迭代次数
五字经D.以上所有
解答:(D)
选项中的所有超参数都可以调整。刘子玉
16)与PCA相⽐,t-SNE的以下说明哪个正确?
A.数据巨⼤(⼤⼩)时,t-SNE可能⽆法产⽣更好的结果。
B.⽆论数据的⼤⼩如何,T-NSE总是产⽣更好的结果。
C.对于较⼩尺⼨的数据,PCA总是⽐t-SNE更好。
D.都不是
解答:(A)