大型电商平台消费贷产品风控模型的构建
scene是什么意思作者:汪晓曦 马颖
来源:《武汉理工大学学报(社会科学版)》2021年第05期
我爱学校
散文诗歌
angels and demons
摘 要: 信用评分模型的构建及应用实施是学术界及工业界不断研究创新的重要课题。gf是什么意思
从机器学习模型的构建出发,从建模指标、模型构建、模型上线后预期表现几个角度说明了模型应用策略。在建模指标处理方面,采用原始变量woe变换作为XGBoost等模型的输入变量,并验证了模型效果提升;在模型构建上,创新采用多种算法单独建模,用XGBoost算法拟合各单模型输出结果,证明复合模型效果有明显提升;在模型上线后预期表现方面,提出了确定模型切分点的方法,即从授信额度、风险级别以及群体分布三个维度,预测即将进件群体的坏账率。本研究最后结合模型表现及业务模式给出实施建议,即对于部署难度高的复合模型可采用预授信的模式,而LR评分卡模型部署可延用申请-授信的模式。
关键词: 信用评分; 风控模型; XGBoost; 机器学习; 模型应用策略
中图分类号: F832.39 文献标识码: A DOI: 10.3963/j.issn.1671-6477.2021.05.004
近6年来,随着电商平台的迅猛发展,消费金融产品层出不穷。这些产品依托电商平台的天然流量优势迅猛发展,从商城内扩展到商城外,不断拓展使用场景抢占市场。在版图的不断扩张中,信贷审批模型、模型在具体商业模式中的应用也随着用户流量的扩张、业务场景的拓展不断更新迭代[1]。目前,在信贷审批模型中,算法Logistic Regression(历年四级真题
简称LR)依然是最为普及的,在一些特定的用户群体和场景下依然有难以替代的地位,依据该算法建立的评分模型规则简单、逻辑清晰、解释性强,便于用户理解。然而,LR模型并不能保证在各种场景、用户群体中都有良好表现。比如从模型稳定性考虑,LR模型用到的变量维度一般不超过15个,在整体自变量与因变量相关性都不高的情况下,有限的变量数量难以达到较好的模型表现。模型表现不够理想直接影响到通过率及日后坏账风险,会对商城信贷收益产生直接影响。在本研究项目中,商城平台主要信贷模型算法采用的就是LR模型,当前LR模型的应用在风控能力及通过率表现方面能基本达成一个平衡,但客户仍然希望尝试新的模型算法,通过提升模型效果达到保证坏账率不增长的前提下提高模型通过率的目的;此外,客户尤其强调好的模型需要应用于生产线产生实际效益,若一个模型太过复杂导致部署周期长、出错率高而难以实施也是没有意义的。根据用户的上述2个要求,项目组从模型构建出发,提出确定模型切分点预测坏账率的方法,并针对平台实际不同业务场景及业务要求确立模型应用的方法。
首先,在信贷风控模型构建上,笔者参考了如下学者提出的方法并将该方法应用在商城平台上,再根据平台数据特点以及模型表现作数据特征提取及模型算法的改善。近年来,信贷风控领域较受青睐的分类算法模型包括Decision Tree(决策树)[2]、SVM(支持
向量机)[3-4]、Random Forest(随机森林)、GBDT(梯度提升决策树)、XGBoost(极度梯度提升算法)、神经网络算法(Neural Networks)[5-7]等。2014年,萧超武等在实证分析中将随机森林组合分类算法与KNN、SVM等单分类器模型以及组合模型GBDT比较,发现前者具有更高的精确度及稳定性[8]。2017年,Bequé将神经网络极限学习算法(ELM)用于消费信贷风险管理,通过实验发现该算法有计算量小、精准度高的特点[9]。2017年,Luo Cuicui采用LR、SVM、深度信念网络(DBN)算法进行信贷违约预测,发现DBN具有最好的预测效果[10]。2019年,陈秋华等探讨了不同连接函数下广义线性模型的分类问题,将线性模型评价指标与RF、SVM、XGBoost等模型进行分析比对,发现广义线性模型中LR模型与SVM预测效果最佳[11]。2019年,黄志刚等人提出多源数据普适模型栈的概念,通过数据分类的自由选择采用XGBoost算法生成子评分模型,再将子评分模型转换为评分卡,通过实测证实有效[12]。在参考上述学者选用的算法并结合商城平台数据特点,本文最终选用了LR算法、决策树算法、XGBoost算法建立单模型。在LR模型变量交互方面,参比陈秋华[11]提出的变量相乘的交互方式,本文提出了用相关系数法寻找交互变量的方法,并验证了该方法的有效性。受黄志刚[12]多源数据普适模型栈的想法启发,借用不同数据特点采用不同模型算法最后用XGBoost模型整合的思路,本文采取首先用多种算trivial
法建立单模型,再用各单模型的结果输出作为复合模型的输入建立复合模型的方法,经验证,复合模型效果较单模型有明显提升。
虽然学术界对风控模型算法的讨论十分热烈,然而对于客户提出的第二点要求,模型在生产线上的实际应用方面却略显单薄。本文花了大量篇幅讨论模型的应用问题。首先,传统LR模型、复杂机器学习模型在实际部署应用方面各有优劣:LR模型部署通常借用风控决策引擎[13]来完成,优势为部署门槛低、部署时间短、结果可靠性强,但模型效果不及复杂机器学习模型;而复杂机器学习模型虽在模型效果上更有优势,但在部署方面,由于受模型复杂程度、数据量级、部署场景、上线时间紧迫等因素制约,不是都能满足工程上的要求成功上线。所以,目前工业界在风控模型部署上,LR仍是主流[14],复杂机器学习模型部署还在不断尝试发展中,不同体量的电商平台复杂机器学习模型实施的普及程度也不一样。对于本项目,商城平台刚开始尝试复杂机器学习模型的部署,文章给出了两者并举的保守方案。本文首先提出风控模型在应用实施中不同切分点对应的预測坏账率,然后比较并验证了在相同风险前提下LR模型与XGBoost复合模型实际通过率差异,并结合具体业务模式及业务需求给出模型选择的依据及部署方式。
一、 模型效果指标评价
很好的英文
模型评价指标是用来评估模型对数据的拟合能力,二元分类的模型算法有很多,但无论是哪种模型算法都可以使用AUC[15]和KS这两个指标来衡量。AUC的取值为0.5~1,AUC值越高代表该算法对模型整体拟合能力越强,AUC等于0.5代表模型没有区辨能力,但大于0.9则模型拟合过于完美考虑异常,AUC在0.7~0.9之间的模型被视为可用。AUC在0.7与0.8之间代表模型有较好的区辨能力;AUC大于0.8代表模型有非常好的拟合能力。AUC取值与模型区辨能力对应关系如表1所示。
KS是评价模型优劣的另外一个常用指标,同样KS值越大代表模型对数据拟合能力越强,通常KS取值在0.2~0.75之间。与AUC不同的是,AUC是反应模型整体对数据的拟合能力,而KS则指出在某一区段模型对目标变量的辨识度最高。KS取值与模型区辨能力对应关系如表2所示。
本文分析比较的4个模型:LR模型、决策树模型、XGBoost单模型及XGBoost复合模型的效果均采用AUC值及KS值这两个指标来进行评价。
二、 建模实证分析
(一) 建模数据构成及变量预处理
目前,该平台信贷产品申请用户为在平台商城近1年内有过历史交易记录的用户,该产品运营已超过1年,有充足的坏用户积累。建模用户群体,我们选择授信前1年内在平台商城内有较为活跃表现的用户,授信后6~12个月内出账次数大于等于6的用户确立建模样本。
y定义方面,通过分析逾期天数与回款率关系,以及通过逾期用户M1~M4坏账滚动率分析后确定的[16]。相同样本,不同y定义,最终AUC和KS模型评价指标会有较大差异。通常y定义越严格,模型指标AUC及KS表现越好,比如把进入M4的用户定义为坏用户比把进入M2的用户定义为坏用户有更好的模型表现。然而,考虑到该评分卡是建立申请用户审批模型,目的不是把最坏的用户排除,而是把有可能进入M3或M4的用户拦截在外。所以,y用户定义采用进入M2或M3的用户,但由于M3用户数量有限,所以把多次进入M2的用户列为坏用户。经过多次尝试,得到y定义为至少有2次出账且2次出账的逾期天数均大于30天(进入M2)的用户为坏用户,其余为好用户。X变量共126个,为用户申请消费贷前平台商城的历史行为数据。从分类来看,可将X变量分为用户基本信息、用户申请渠道、用户信用资质、平台活跃度、平台交易信息、收货方式、收货人(地址)信息等类别。数据样本共11180个观测值,其中坏用户为1118个,odds比9∶1。采用分层抽样的方
英语大课堂答案式将数据切分为7∶3两部分,前者用作模型训练及验证,后者用于模型测试。
在数据预处理环节,对每个X变量作单变量分析,进行变量一致性、完整性、准确性检验,剔除变量缺失率高于20%的变量;对变量进行woe转换并计算其iv值,预测每个自变量x与因变量y的相关程度。在作变量woe转换时,对自变量排序后切分为10等分进行粗分箱,然后对变量分箱进行合并,合并时确保变量woe值为单调趋势,各分箱观测值数量不低于25个,且相邻分箱的woe值有较大差异。最后计算变量iv值,结果如图1所示。
(二) Logistic Regression单模型
cherokee
筛选出iv值大于0.1的经过woe转换的自变量作为模型输入变量,采用stepwi逐步回归法筛选变量,模型置信度设为95%,y变量共2个取值,“0”代表好用户,“1”代表坏用户,以“0”为目标构建模型。在模型变量调整上,通过计算自变量的相关性,使相关性较大的变量组合尽可能避免同时出现在模型中。根据模型输出结果,删除变量系数为正或者系数过小的变量,以减小共线性对模型效果的影响。检查进入模型的x变量分类,确保模型尽可能覆盖到每个分类。检查模型评分确保评分均匀分布。当出现超过样本量5%的观测值对应同一个评分时,找到是哪个变量造成的,用别的变量加以替换。最后确认模型,入模变量及
模型参数如表3所示,模型变量分别为收货人数量、近12个月的货到付款次数、近3个月的货到付款次数、近12个月拒收次数、近12个月每个月都有交易的月份数、近3个月交易金额、近3个月信用卡支付金额、近3个月借记卡支付次数、近3个月使用app登录平台次数、用户婚姻状况、用户性别以及用户进件渠道。
1.LR变量交互。在不改变入模变量数量的前提下,将入模变量与待选变量做交互,以达到提升模型整体效果的目的。通常待选变量iv值过小难以进入模型,但待选变量与模型变量涵盖信息不同,且与之交互的模型变量相关性低。为寻找待选变量,采用对需要交互的两变量计算Pearson相关系数的办法,最后发现两组可以通过变量交互提升模型的变量。第一组,“授信渠道”、“商城卡包提取标志”进行变量交互替代原模型中“授信渠道”变量;第二组,“婚姻状况”、“客单价”进行变量交互替代原模型中“客单价”变量;交互后模型效果提升如下表所示,可以看出交互前后AUC没有显著提升,但模型KS值约有6‰的提升。交互变量的加入可以小幅度提升模型效果,如表4所示。
2.决策树单模型。在决策树模型构建过程中使用了两种叶节点分裂的算法,一个是熵分裂标准,另一个是Kolmogorov-Smirnov(FastCHAID)分裂标准,剪枝过程中均采用误
判率、最小叶子数作为剪枝标准[17-18]。两模型输入变量前者是原始变量,后者为经过woe转换后的变量。本模型采用SAS PROC HPSPLIT完成,通过对leafsize(叶节点最小观测数)、最小叶子数量、maxdepth(最大树深)、maxbranch(最大分枝数)参数调整完成决策树的构建。对每片叶子目标变量预测概率排序,通过计算每个概率分箱中累计好坏用户的占比,得到AUC及KS值。结果如表5所示。