如何使用GBMGBDTGBRT

更新时间:2023-05-20 10:15:55 阅读: 评论:0

如何使⽤GBMGBDTGBRT
奇迹 英语
Gradient Boosted Regression Trees (GBRT,名称就不⽤翻译了吧,后⾯直接⽤简称)或Gradient Boosting,是⼀种⽤于分类和回归的机器学习⽅法。
Scikit-learn及Gradient Boosting简介海外游学
Scikit-learn提供了包含有监督学习和⽆监督学习⼀系列机器学习技术,也包含了常见的模型选择,特征提取,特征选择的常见机器学习⼯作任务。
Scikit-learn中的gradient boosting提供了两个estimator:GradientBoostingClassifier和GradientBoostingRegressor,都可以从ble⾥调⽤。
邪恶新世界Estimators提供了⼀系列参数来控制拟合,GBRT⾥重要的参数如下:
回归树的数量(n_estimators)
每棵独⽴树的深度(max_depth)
剑桥雅思词汇损失函数(loss)
rip学习速率(learning_rate)
例如,如果你想得到⼀个模型,使⽤100棵树,每棵树深度为3,使⽤最⼩⼆乘法函数作为损失函数,代码如下:
pentest = GradientBoostingRegressor(n_estimators=100, max_depth=3, loss='ls')
Gradient Boosting实战
向GBRT添加的更多的树以及更深的深度,可以捕获更多的偏差,我们模型也更复杂。但和以往⼀样,机器学习模型的复杂度是以“过拟合”为代价的。
上图中蓝线是指训练集的预测偏差:可以看到开始阶段快速下降,之后随着添加更多的树⽽逐步降低。测试集预测偏差(红线)同样在开始阶段快速下降,但是之后速度降低很快达到了最⼩值(50棵树左右),之后甚⾄开始上升。这就是我们所指的“过拟合”:在⼀定阶段,模型能够⾮常好的拟合训练数据的特点(这个例⼦⾥是我们随机⽣成的噪⾳)但是对于新的未知数据其能⼒受到限制。图中在训练数据与测试数据的预测偏差中存在的巨⼤的差异,就是“过拟合”的⼀个信号。
Regularization
Gradient boosting很棒的⼀点,就是提供了⼀系列“把⼿”来控制过拟合。提供三个“把⼿”来控制“过拟合”:树结构(tree structure),收敛(shrinkage),随机性(randomization)。
树结构(tree structure)
单棵树的深度是模型复杂度的⼀⽅⾯。树的深度基本上控制了特征相互作⽤的成都。例如,如果想覆盖维度特征和精度特征之间的交叉关系特征,需要深度⾄少为2的树来覆盖。不幸的是,特征相互作⽤的程度是预先未知的,但通常设置的⽐较低较好–实战中,深度4-6常得到最佳结果。在scikit-learn中,可以通过max_depth参数来限制树的深度。
beloved什么意思另⼀个控制树的深度的⽅法是在叶节点的样例数量上使⽤较低的边界:这样可以避免不均衡的划分,出现⼀个叶节点仅有⼀个数据点构成。在scikit-learn中可以使⽤min_samples_leaf参数来实现。
收敛(Shrinkage)
GBRT调参的技术最重要的就是收敛:基本想法是进⾏通过收敛每棵树预测值进⾏缓慢学习,通过learning_rage来控制。较低的学习速率需要更⾼数量的n_estimators,以达到相同程度的训练集误差–⽤时间换准确度的。
随机梯度推进(Stochastic Gradient Boosting)
与随机森林相似,在构建树的过程中引⼊随机性导致更⾼的准确率。Scikit-learn提供了两种⽅法引⼊随机性:a)在构建树之前对训练集进⾏随机取样(subsample);b)在找到最佳划分节点前对所有特征取样(max_features)。经验表明,如果有充⾜的特征(⼤于30个)后者效果更佳。值得强调的是两种选择都会降低运算时间。
超参数调优(Hyperparameter tuning)
我们已经介绍了⼀系列参数,在机器学习中参数优化⼯作⾮常单调,尤其是参数之间相互影响,⽐如learning_rate和n_estimators, learning_rate和subsample, max_depth和max_features)。
电影院英文对于gradient boosting模型我们通常使⽤以下“秘⽅”来优化参数:
1.根据要解决的问题选择损失函数
2.n_estimators尽可能⼤(如3000)
tax day
3.通过grid arch⽅法对max_depth, learning_rate, min_samples_leaf, 及max_features进⾏寻优
4.增加n_estimators,保持其它参数不变,再次对learning_rate调优天津会计从业资格证
详细代码及讲解请“点击原⽂”
阅读原⽂
阅读原⽂阅读
加载中

本文发布于:2023-05-20 10:15:55,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/115676.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   参数   特征
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图