金融风控精选10道面试题分享!

更新时间:2023-05-15 08:42:27 阅读: 评论:0

⾦融风控精选10道⾯试题分享!
草莓酱怎么做问题1 :feature_importance 和 iv有时候选出的变量差别很⼤,该以哪个为准,怎么判别?
个⼈感觉IV和⽬标函数的关系更⼤,但是⼀半⽤IV做初筛,iv很低,不⽤进模型,但是IV是单个变量的作⽤,⽽feature_importance有⼀个特征组合效应在⾥⾯。我个⼈是这么理解的。所以按理也可以推出,不⼀定是选IV最⾼的变量组合在⼀起就⼀定能够ks最⾼,⽽是特征组合在⼀起综合效应最⾼的才是KS能够达到最⾼的。
问题2:举例 | 根据业务构造损失函数巴西龟冬眠怎么养
XGBoost模型⽀持⾃定义评价函数和损失函数。只要保证损失函数⼆阶可导,通过评价函数的最⼤化既可以对模型参数进⾏求解。实际使⽤中,可以考虑根据业务⽬标对这两者进⾏调整。举个例⼦,假设现在有⼀个提额模型,⽤处是将分数最⾼的20%客户给与更⾼的额度。也就是期望分数最⾼的20%的客群正样本捕获率最⼤化。可能在保证上述前提,同时保证模型对正负样本有⼀定的区分能⼒。所以可以改写⼀个保证模型区分度,同时⼜能优化局部正样本捕获率的评价函数。
可以看到评价函数由两部分组成,第⼀部分权重默认为0.5,⽬的是使得前20%样本中的正样本占⽐最⼤。因为正样本的标签为0,因此pandas.quantile()函数分位点参数0.2,表⽰预估为正样本概率最⼤的前20%分位点。第⼆部分权重同样默认设置为0.5,⽬的是让模型对正负样本的识别能⼒得到保障。
实际使⽤中,可以根据,对模型表现的侧重点,进⾏权重选择。⽐如当更希望模型关注于捕获率时,可以调整第⼀部分权重为0.8,将第⼆部分权重调整为0.2。本⽂给出的是⼀种启发性的思路,读者还可以根据实际情况改写更贴合业务的损失函数。LightGBM中也同样⽀持⾃定义损失函数和评价函数。代码上有⼀些细微差别。评价函数需要返回三部分,⽤Fal代替。
问题3:为什么要做拒绝推断?常⽤的拒绝推断⽅法有哪些?
拒绝推断的⽬的:如果只⽤好坏⽤户建模,则忽略了那些授信被拒的⽤户,加⼊拒绝⽤户是为了让建模样本更接近总体的分布,防⽌样本有偏,同时也能增加样本数量。
公司内部策略的变动,导致当前的申请者已不能代表建模时点的申请者,所以过去被拒的⽤户不⼀定现在也会被拒绝,因此,只使⽤审批通过的⽤户可能会造成误判。
做拒绝推断可以找出之前被拒的好⽤户,挖掘这些⽤户,改善风控流程,增加公司收益。拒绝推断的适⽤范围:⾼核准率不适合⽤拒绝推断,因为⾼核准率下好坏⽤户已接近于整体的申请⽤户。中低核准率适⽤⽤拒绝推断。拒绝推断的常⽤⽅法:硬性截断法:先⽤好坏⽤户建⽴初始模型,然后⽤这个初始模型对拒绝⽤户进⾏打分,设定⼀个阈值分数(根据对拒绝⽤户的风险容忍度),低于这个阈值的为坏⽤户,⾼于这个阈值的为好⽤户。再将已标记好的拒绝⽤户放⼊样本中,重新建⽴模型。
分配法:此⽅法适⽤于评分卡,先⽤好坏⽤户建⽴初始评分卡模型,再将样本跟据评分⾼低进⾏分组,计算各分组的违约率。然后对拒绝⽤户进⾏打分并按此前的步骤进⾏分组,以各分组的违约率为抽样⽐例,随机抽取改分组下的违约⽤户,指定其为坏⽤户,剩下的则是好⽤户。最后将已标记的拒绝⽤户加⼊样本中,重新建⽴模型。
人事工作六大模块平常⼯作中主要⽤到以上两种⽅法,个⼈建议做申请模型最好做⼀下拒绝推断,这样模型上线后的得分分布和拒绝率和线下才不会有很⼤的差异。
问题4:不平衡场景下的过采样(朴素、SMOTE)后训练的模型都需要结果概率校正吧?如何操作?
学生致家长的一封信只有单个模型不需要做校正,如果需要和其他模型做融合或者做⽐较的时候可以做。
很多机器学习算法⽆法在不平衡样本上取得很好地效果,这是由于其损失函数在判定正负样本损失时没有考虑到样本不均衡导致的。⽐如逻辑回归的损失函数:
均衡导致的。⽐如逻辑回归的损失函数:
这⾥没有加⼊正则项,但也可以看出对于正负样本预测错了的惩罚是⼀样的,当样本⾮常不均衡时,这个损失函数可能导致分类器输出结果全都是占⽐较⼤的样本:如99%都是正样本,1%是负样本,则学习出来的结果可能是不管扔进去什么数据,分类器⼀律预测为正样本,因为这样的损失已经很⼩了。
解决这⼀问题,⼀是改变损失函数,⽐如y=1的样本远少于y=0的,就在损失函数⾥加⼤y=1的系数权重。⼆是通过采样⽅法改变y的先验分布。若通过采样⽅法如下采样改变了Y=1:Y=0的⽐例,则在使⽤某些算法如逻辑回归时会有⼀些问题:在调整后的数据集上训练出来的输出概率不是原始数据分布的概率,若要知道原分布下的概率,要对结果进⾏调整
这⾥插⼀句,尽管理论上来说⼈们认为逻辑回归的输出是某类别的概率,但我在⼯作中很少⽤“概率”来这么看待他们,⽽更多的是⽤这个连续值对输出结果排序,并根据需要选取分类阈值。⽐如做信贷审批,不会简单地把输出逾期概率0.5以上的⼈拒绝,⽽是⽤lift chart看分到哪⼀步的⼈群的逾期率是可接受的,所以逻辑回归的输出更多应⽤在对⼈群排序,⽽⾮真的⽤“概率”这层含义去解释。
回到本⽂主题,毕竟通过采样,我们改变了先验概率,导致模型预测的后验概率不是原样本的概率,如果硬要还原,做法如下:西晋建立时间
令X为输⼊数据,Y为原始标签,Y′为数据平衡(subsample/oversample)后的标签,P(X|Y)P为模型得到的似然函数,P(Y)为0/1类概率的先验知识。似然函数只和模型相关,和数据⽆关,所以在数据平衡前后是⼀致
的,P(X|Y)=P(X|Y′)。
根据贝叶斯理论,后验概率,
这⾥P(X)只和数据有关认为是常数。
假设平衡后P(Y′=1)=P(Y′=0)=0.5,此时逻辑回归输出标签1的概率ps,则ps=P(Y′=1|X)=P(X|Y′=1)P(Y′=1)
假设平衡前P(Y=1)/P(Y=0)=β,β∈[0,1),想要知道原始的标签为0/1的概率p0,p1。其满⾜以下公式
⼜因为p0+p1=1,则有理性乐观派
以上就是讲平衡后的概率转换成平衡前的概率的公式,其核⼼思想是似然函数于数据⽆关,样本平衡只影响先验概率,所以以似然函数为桥梁,根据贝叶斯公式,从平衡后的后验概率推导出平衡前的后验概率
怎么写现代诗
问题5:假设我lgb在不平衡分类上训练了⼀个模型,训练集上输出概率分布呈偏态分布(偏向0,好样本),但在测试集上呈近似正态分布。如果设置scale_pos_weight参数,会产⽣这种情况,如果不设置,测试集上的概率分布还是和训练集类似这种现象正常吗?
正常吧,scala pos weight相当于改变了训练集的标签分布,不过我理解,输出概率分布不⼀样,对排序模型没有影响吧~,只不过和别的模型的分数不能直接⽐较。
scale_pos_weight 是⽤来调节正负样本不均衡问题的,⽤助于样本不平衡时训练的收敛。
如果你仅仅关注预测问题的排序或者AUC指标,那么你尽管可以调节此参数。如果你希望得到真正的预测概率则不能够通过此参数来平衡样本。什么意思呢,让我们来举个例⼦:加⼊我们现在需要通过体重来预测男⼥,有三个⼈体重分别为50kg、60kg、70kg。假设他们是男⽣的真正概率是:0.4、0.6、0.8。那么好,我现在模型预测出的概率为:0.7、0.8、0.9。如果讲预测概率的话,显然模型效果很差,但是我们预测的男⽣概率的排序以及 ROC 曲线(包括对应 AUC 值)都不会改变。
问题6:下探⼀般要选多少样本进⾏下探?下探的样本评分很低,但选取哪些呢?
问题6:下探⼀般要选多少样本进⾏下探?下探的样本评分很低,但选取哪些呢?
按照期望得到的坏客户量进⾏选择。不知道下探后会收获多少坏样本对不对?上⼀次模型迭代时候的测试集模拟就派上⽤场了。⽤那个百分⽐作为下探区间的预期百分⽐,然后去算吧。
问题7:现在市⾯上在⾦融风控中⽤的⽆监督算法都有哪些?
主要是基于图的离群检测和聚类,其次还有孤⽴森林,LOF这种,还有通过聚类进⾏特征衍⽣
天津市大学问题8:针对新场景下样本量较少的情况,通常采⽤什么⽅法?
可以迁移的历史样本或者其他场景样本⽤来做迁移。⽆标签样本丢进来做半监督。
风控模型的冷启动是指产品刚上线时,没有积累的⽤户数据,或者⽤户还没有表现出好坏,此时需要做模型就是⼀个棘⼿的问题,常⽤的⽅法如下:
不做模型,只做规则。凭借⾃⼰的业务经验,做⼀些硬性规则,⽐如设定⽤户的准⼊门槛,考量⽤户的信⽤历史和多头风险,⽽且可以接⼊第三⽅提供的反欺诈服务和数据产品的规则。另外可以结合⼈审来对⽤户的申请资料做风险评估。借助相同模式产品的数据来建模。如果两个产品的获客渠道,风控逻辑,⽤户特征都差不多的话,可以选择之前已上线那个产品所积累的⽤户来建模,不过在模型上线后需要⽐较线上⽤户的特征是否与建模⽤户有较⼤的差异,如果差异较⼤,需要对模型对⼀些调整。
⽆监督模型+评分卡。这种⽅法适⽤于产品上线⼀段时间后,表现出好坏的⽤户⽐较少,但需要做⼀个模型出来,此时可⽤线上的申请⽤户做⽆监督模型,找出⼀部分坏样本和好样本,⽤这些数据来做评分卡模型,当然这种模型准确性是存疑的,需要后续对模型不断迭代优化。
问题9:使⽤BiLSTM 对⽤户⾏为进⾏建模时,神经⽹络的输⼊层是什么?输出层是什么?怎么把⽤户⾏为数据转换成神经⽹络输⼊层的向量?
打个⽐⽅啊,额度使⽤率按照⽉份的时间序列就是,前0-30天的额度使⽤率,前30-60的额度使⽤率,前60-90的额度使⽤率...变成⼀个列向量。有多少特征(额度使⽤率是⼀个特征)就有多少个列向量。然后输⼊层就是这些列向量,输出层⼀般就是⽤户的标签。最终可以把输出的score丢进逻辑回归,或者把中间测参数拿出来也可以。
问题10:请问欺诈标签如何定义?
反欺诈的千古难题。现在使⽤的⽅法:外部⿊名单,客服的反馈,明显坏的⾏为(例如贷款逾期M3+。通讯录造假),根据已有标签进⾏染⾊,负样本上聚类(已有标签明显多的⼀类)

本文发布于:2023-05-15 08:42:27,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/638679.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   模型   函数   概率   输出
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图