首页 > 英文翻译

数据分析面试常见问题

更新时间:2023-05-20 09:45:36 阅读：评论：0

数据分析面试常见问题

1. 贝叶斯公式复述并解释应用场景

1）P（A|B) = P(B|A)*P(A) / P(B)

2）如搜索query纠错，设A为正确的词，B为输入的词，那么：

a. P(A|B)表示输入词B实际为A的概率

摩天轮的故事 b. P(B|A)表示词A错输为B的概率，可以根据AB的相似度计算（如编辑距离）

c. P(A)是词A出现的频率，统计获得

d. P(B)对于所有候选的A都一样，所以可以省去

2. 如何写SQL求出中位数平均数和众数（除了用count之外的方法）

1）中位数：

方案1（没考虑到偶数个数的情况）：

xiajiat @m = (lect count(*)/2 from table)

lect column from table order by column limit @m, 1

方案2（考虑偶数个数，中位数是中间两个数的平均）：

t @index = -1

lect lumn)

from

(lect @index:=@index+1 as index, column

from table order by column) as t

幼儿英语说课稿where t.index in (floor(@index/2),ceiling(@index/2))

2）平均数：lect avg(distinct column) from table

3）众数：lect column, count(*) from table group by column order by column desc limit 1(emmm，好像用到count了）

3. 学过的机器学习算法有哪些

略。

hedylamarr

4. 如何避免决策树过拟合

公费留学

1）限制树深

手动档汽车起步 2）剪枝

3）限制叶节点数量

4）正则化项

5）增加数据

6）bagging（subsample、subfeature、低维空间投影）

7）数据增强（加入有杂质的数据）

8）早停

5. 朴素贝叶斯的理解

1）推导（参考：/pinard/p/6069267.html）

2）理解：朴素贝叶斯是在已知一些先验概率的情况下，由果索因的一种方法

3）其它：朴素的意思是假设了事件相互独立

6. SVM的优点

1）优点：

a. 能应用于非线性可分的情况

b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难

c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本

d. 高维低样本下性能好，如文本分类

2）缺点：

a. 模型训练复杂度高

b. 难以适应多分类问题

c. 核函数选择没有较好的方法论

7. Kmeans的原理

1）初始化k个点sissy

2）根据距离点归入k个类中

3）更新k个类的类中心

4）重复（2）（3），直到收敛或达到迭代次数

cet6准考证打印入口官网8. 对拼多多有什么了解，为什么选择拼多多

略。店铺介绍怎么写

走遍美国中英字幕9. 口答两个SQL题（一个跟留存率相关，一个要用到row number）

1）留存率：略

2）mysql中设置row number：

SET @row_number = 0; SELECT (@row_number:=@row_number + 1) AS num FROM table

10. 业务场景题，如何分析次日留存率下降的问题

业务问题关键是问对问题，然后才是拆解问题去解决。

1）两层模型：从用户画像、渠道、产品、行为环节等角度细分，明确到底是哪里的次日留存率下降了

本文发布于:2023-05-20 09:45:36，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/115652.html

上一篇：2012The relationship between net interest margin and noninterest income

下一篇：ResNet网络结构和主要代码解析

标签：向量支持问题

留言与评论（共有 0 条评论）