随机森林分类预测性能SE,SP,ACC与决策树⽐较
请采⽤决策树的集成学习⽅法——随机森林完成第三次作业中, 对男⼥⽣样本数据中的(喜欢颜⾊,喜欢运动,喜欢⽂学)3 个特征进⾏分类,计算模型预测性能(包含 SE、SP、ACC),并以友好的⽅式图⽰化结果,与决策树分类的结果进⾏⽐较。
⽬录
1.调节随机森林的参数
1.1调n_estimators参数小学英语教学网
本⽂先找出⽤⼏棵树模型的表现最好。⾸先,找到这个n_estimators最值的⼤概区间。为了观察得分随着树增多的变化,绘制决策树调参时的学习曲线如图。
图1
最优参数以及最⾼得分: [60.000, 0.809]
根据曲线,本⽂进⼀步缩⼩范围,搜索50~80之间的得分。
图2
hos最优参数以及最⾼得分: [54. 000, 0.809]
可以看到,54为得分最⾼点,我们暂定n_estimators为54,接着调下边的参数。
mesnger是什么意思
wolf是什么意思1.2探索max_depth(树的最⼤深度)最佳参数
图3
最优参数以及最⾼得分: [10.000, 0.809]
10之后⼀直没有变化,可以说明就算不限制,所有树的最⼤深度也就是10左右,因为我们以步长为3搜索的,所以还需要进⼀步搜索⼀下10附近的值。精细搜索之后发现,10这个值就是转折点,所以暂定max_depth = 10。
1.3 min_samples_split
图4
最优参数以及最⾼得分: [8.000, 0.815]
可以看到,随着min_samples_split增⼤,模型得分在4和8处有两个峰值,因此min_samples_split暂定8。
1.4 min_samples_leaf
图5
最优参数以及最⾼得分: [1.000, 0.815]
因此,随机森林最优参数可设定如下表1
n_estimators max_depth min_samples_split min_samples_leaf Best value541081 Score0.8090.8090.8150.815
表1hac是什么意思
2.模型预测性能
2.1 SE、SP、ACC
敏感性SE特异性SP准确率ACC Decision Tree0.9420.3000.821the cross
Random Forest0.8570.2000.764
48个国际音标
表2
tic tac toe1. 由表2可知,ACC准确率,决策树和随机森林能够正确预测的样本总数的8
2.1%和76.4%;由敏感性SE可知,两模型对男⽣(正样
本)的预测正确率⾼达94.2%和85.7%;⽽由特异性SP可知,两模型对⼥⽣(负样本)的分类正确率只有30%和20%,这可能是在模型训练的过程中,⼥⽣(负样本)数量过少,导致训练的模型不够准确,因⽽正确率不⾼。
2.2决策树随机森林分类效果对⽐
图6 随机森林和决策树在⼀组交叉验证下的效果对⽐
图7随机森林和决策树在⼗组交叉验证下的效果对⽐
由图6可知单个决策树的准确率越⾼,随机森林的准确率也会越⾼。由图7 可知决策树分类的分数⾮常稳定,⽽随机森林⾮常不稳定,变化幅度很⼤。
2.3 分类评分
采⽤score函数对随机森林与决策树进⾏分数⽐对,随机森林设定最优参数如表1,决策树设定与随机森林相似,⽐对结果如下。
SingleTree Random Forest学慧网
0.8300.764
表3
via由表2,3,图6,7知,总体来说,决策树的分类表现要优于随机森林,这可能是由于以下两点:
(1)某些数据集没有训练到,导致分类结果不如决策树;
(2)颜⾊属性取值划分较多 ,取值划分较多的属性会对随机森林产⽣更⼤的影响,所以随机森林在这种颜⾊特征上产出的属性权值是不可信的。
3.随机森林可视化
本次实验共设定54颗⼦决策树,其中的⼀棵⼦决策树如图8所⽰。
图8 随机森林⼦决策树
#代码
随机森林参数调节