使用随机森林算法对电信客户流失进行预测

更新时间:2023-06-16 23:09:58 阅读: 评论:0

1.查看数据集:
可以看到,我们的数据集共有7041条记录,有21个自变量,其中Churn为我们的目标变量,目标变量是一个二分类的字符串数据类型,直接决定了我们的此次的目标任务是一个二分类问题。其它的自变量中,除少数的变量SeniorCitizen,tenure,MonthlyCharges, TotalCharges是连续的数值变量外,其它的自变量都是离散的字符串变量。
2.查看因变量的分布。
可以看到,我们的因变量分类不均,大多数变量为NO,少数变量为Yes,但是yes并没有少至需要进行调整的程度。NO:Yes的数据大概在2.5:1的水平上。在此次研究中,不需
sorry
要对数据集进行特别的处理。
3.查看数据的缺失值:
生活大爆炸 第五季
可以看到,我们的数据集中存在缺失值的情况,缺失值只存在于TotalCharges变量中,缺失值的数量比较少,在些次研究中,可以含有这些缺失值的行进行删除处理。
desk4. 通过gini系数,初步查看数据集自变量的重要性。因为太多的变量纳入模型,对于模型的性能并不能取得更好的结果。
可以看到的是,通过初步的探索,发现Contract,tenure,OnlineSecurity,TechSupport,InternetService对于因变量的分类,有着特别重要的意义,而gender,PhoneService,MultipleLines这三个变量对于因变量的分类的意义不大,该3个变量中,目标变量的条件gini系数并没有很大程度的下降。asmile
5.探索性分析,查看Contract,tenure,OnlineSecurity,TechSupport,InternetService对于目标变量的影响。
可以看到,contract变量,分类结果为two year时,客户有着最低的流失率,而分类情况为month to month时,客户的流失率较高。
通过绘制tenure~Churn的概率密度曲线图,可以看出,在tensure为较低的值,小于20时,客户有着更多的流失的可能,而在tensure为较高的值,大于40时,客户的流失概率会降低很多。
变量onlineSecurity类别为 no internet rvice时,有着最少的流失概率。而类别为No时,客户的流失概率较高,可以达到40%的流失率。
变量techsupport类别为 no internet rvice时,有着最少的流失概率。而类别为No时,客户的流失概率较高,可以达到40%的流失率。这个结论与我们的变量onlineSecurity得出的结论相一致。
变量internetrvice类别为no时有着较低的流失概率,流失概率不足10%;而类别为fiber optic时,流失率比较高,流失率超过40%。类别为dsl时,流失率介于no和fiber optic之间。
6.数据预处理:
6.1从上述探索性分析来看,我们需要将TotalCharges变量中的缺失值进行删除。并且还需要删除"gender","PhoneService","MultipleLines","customerID"这4个对于因变量没有影响的自变量。
6.2因我们所建立的模型为随机森林模型,故不需要对数据集的数据分布进行处理,随机森林可以处理非线性问题。
guarantee用法
6.3 使用随机数种子 123将数据集按7:3分成训练集和测试集。
7.建立随机森林模型:
heineken
日语三级真题英语网站大全可以看到,当树的数目为100时,分类错误率已经可以将到一个比较低的数值,并且分类错误率已经比较稳定,做ntree选择100,是一个比较合适的值。
查看自变量的重要性:
medicine是什么意思
从随机森林的结果来看,对于目标分类,比较重要的自变量是totalcharges,monthlycharges,tenure,contract,onlinecurity,paymentmethod。其它的自变量对于因变量分类的结果影响比较小。
查看训练集分类结果:
可以看到,在训练集上,模型的分类正确率为98.2%,auc值也可以达到0.971。
测试集上的结果:
可以看到,在测试集上,模型的分类正确率为79.5%,auc值为0.696。
感恩节 英文
8.结论
综上分析,我们可以发现,随机森林可以在电信客户的流失中聚类分类正确率为79.5%的结果,auc值为0.696,可以比较好的把可能会发生流失的客户进行识别。对于降低客户的流失,有着比较积极的意义。
通过模型,发现,在客户流失的影响因素中,比较重要的变量有totalcharges,monthlycharges,tenure,contract,onlinecurity,paymentmethod。

本文发布于:2023-06-16 23:09:58,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/147503.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分类   变量   流失   客户   模型
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图