数据分析面试常见问题

更新时间:2023-05-20 09:45:36 阅读: 评论:0

数据分析面试常见问题
1. 贝叶斯公式复述并解释应用场景
   1)P(A|B) = P(B|A)*P(A) / P(B)
   2)如搜索query纠错,设A为正确的词,B为输入的词,那么:
      a. P(A|B)表示输入词B实际为A的概率
摩天轮的故事      b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)
      c. P(A)是词A出现的频率,统计获得
      d. P(B)对于所有候选的A都一样,所以可以省去
 
2. 如何写SQL求出中位数平均数和众数(除了用count之外的方法)
   1)中位数:
方案1(没考虑到偶数个数的情况):
xiajiat @m = (lect count(*)/2 from table)
lect column from table order by column limit @m, 1
方案2(考虑偶数个数,中位数是中间两个数的平均):
t @index = -1
lect lumn)
from
(lect @index:=@index+1 as index, column
from table order by column) as t
幼儿英语说课稿where t.index in (floor(@index/2),ceiling(@index/2))
   2)平均数:lect avg(distinct column) from table
   3)众数:lect column, count(*) from table group by column order by column desc limit 1(emmm,好像用到count了)
 
3. 学过的机器学习算法有哪些
略。
hedylamarr 
4. 如何避免决策树过拟合
公费留学
   1)限制树深
手动档汽车起步   2)剪枝
   3)限制叶节点数量
   4)正则化项
   5)增加数据
   6)bagging(subsample、subfeature、低维空间投影)
   7)数据增强(加入有杂质的数据)
   8)早停
 
5. 朴素贝叶斯的理解
   1)推导(参考:/pinard/p/6069267.html
   2)理解:朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方法
   3)其它:朴素的意思是假设了事件相互独立
 
6. SVM的优点
   1)优点:
      a. 能应用于非线性可分的情况
      b. 最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难
      c. 具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本
      d. 高维低样本下性能好,如文本分类
   2)缺点:
      a. 模型训练复杂度高
      b. 难以适应多分类问题
      c. 核函数选择没有较好的方法论
 
7. Kmeans的原理
   1)初始化k个点sissy
   2)根据距离点归入k个类中
   3)更新k个类的类中心
   4)重复(2)(3),直到收敛或达到迭代次数
 
cet6准考证打印入口官网8. 对拼多多有什么了解,为什么选择拼多多
略。店铺介绍怎么写
 
走遍美国中英字幕9. 口答两个SQL题(一个跟留存率相关,一个要用到row number)
   1)留存率:略
   2)mysql中设置row number:
SET @row_number = 0; SELECT (@row_number:=@row_number + 1) AS num FROM table
 
10. 业务场景题,如何分析次日留存率下降的问题
   业务问题关键是问对问题,然后才是拆解问题去解决。
   1)两层模型:从用户画像、渠道、产品、行为环节等角度细分,明确到底是哪里的次日留存率下降了

本文发布于:2023-05-20 09:45:36,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/115652.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:向量   支持   问题
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图