机器学习经验总结之XGBoost

更新时间:2023-05-20 09:03:02 阅读: 评论:0

典型值为
1. e ta [默认 0.3]
和 GBM 中的 learning rate 参数类似。 通过减少每⼀步的权重,可以提⾼模型的稳定性。 典型值为 0.01-0.2。
2. m in_child_we ig ht [默认 1]朗阁留学
决定最⼩叶⼦节点样本权重和。和 GBM 的 min_child_leaf 参数类似,但不完全⼀样。XGBoost 的这个参数是最⼩样本权重的和,⽽ GBM 参数是最⼩样本总数。这个参数⽤于避免过拟合。当它的值较⼤时,可以避免模型学习到局部的特殊样本。但是如果这个值过⾼,会导致⽋拟合。这个参数需要使⽤ CV 来调整。
3. m ax_d e p th [默认 6]
和 GBM 中的参数相同,这个值为树的最⼤深度。这个值也是⽤来避免过拟合的。max_depth 越⼤,模型会学到更具体更局部的样本。需要使⽤CV 函数来进⾏调优。 典型值:3-10
4. m ax_le af_nod e s
树上最⼤的节点或叶⼦的数量。 可以替代 max_depth 的作⽤。因为如果⽣成的是⼆叉树,⼀个深度为 n 的树最多⽣成 n2 个叶⼦。 如果定义了这个参数,GBM 会忽略 max_depth 参数。
outdoors>ti
5. g am m a [默认 0]
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma 指定了节点分裂所需的最⼩损失函数下降值。 这个参数的值越⼤,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。
6、m ax_d e lta_s te p[默认 0]
这参数限制每棵树权重改变的最⼤步长。如果这个参数的值为 0,那就意味着没有约束。如果它被赋予了某个正值,那么它会让这个算法更加保守。 通常,这个参数不需要设置。但是当各类别的样本⼗分不平衡时,它对逻辑回归是很有帮助的。 这个参数⼀般⽤不到,但是你可以挖掘出来它更多的⽤处。
7. s ub s am p le [默认 1]
和 GBM 中的 subsample 参数⼀模⼀样。这个参数控制对于每棵树,随机采样的⽐例。 减⼩这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过⼩,它可能会导致⽋拟合。 典型值:0.5-1宠物保姆
8. cols am p le_b ytr e e [默认 1]
和 GBM ⾥⾯的 max_features 参数类似。⽤来控制每棵随机采样的列数的占⽐ (每⼀列是⼀个特征)。 典型值:0.5-1
9. cols am p le_b yle v e l [默认 1]
⽤来控制树的每⼀级的每⼀次分裂,对列数的采样的占⽐。 我个⼈⼀般不太⽤这个参数,因为 subsample 参数和 colsample_bytree 参数可以起到相同的作⽤。但是如果感兴趣,可以挖掘这个参数更多的⽤处。
retcomputer
10. lam b d a [默认 1]
权重的 L2 正则化项。(和 Ridge regression 类似)。 这个参数是⽤来控制 XGBoost 的正则化部分的。虽然⼤部分数据科学家很少⽤到这个参数,但是这个参数在减少过拟合上还是可以挖掘出更多⽤处的。
11. alp ha [默认 1]
权重的 L1 正则化项。(和 Lasso regression 类似)。 可以应⽤在很⾼维度的情况下,使得算法的速度更快。关于雷锋的演讲稿
12. s cale_p os_we ig ht [默认 1]reporter
在各类别样本⼗分不平衡时,把这个参数设定为⼀个正值,可以使算法更快收敛。
学习⽬标参数
这个参数⽤来控制理想的优化⽬标和每⼀步结果的度量⽅法。
怦然心动片尾曲1. ob j e ctiv e [默认 r e g:line ar]
这个参数定义需要被最⼩化的损失函数。最常⽤的值有:
binary:logistic ⼆分类的逻辑回归,返回预测的概率 (不是类别)。 multi:softmax 使⽤ softmax 的多分类器,返回预测的类别 (不是概率)。
在这种情况下,你还需要多设⼀个参数:num_class(类别数⽬)。 multi:softprob 和 multi:softmax 参数⼀样,但是返回的是每个数据属于各个类别的概率。
2. e v al_m e tr ic [默认值取决于 ob j e ctiv e 参数的取值]
re是什么意思 >bluegrass
对于有效数据的度量⽅法。对于回归问题,默认值是 rm,对于分类问题,默认值是 error。 典型值有:
rm 均⽅根误差、mae 平均绝对误差、logloss 负对数似然函数值、error ⼆分类错误率 (阈值为 0.5)、merror 多分类错误率、mlogloss 多分类 logloss 损失函数、auc 曲线下⾯积
3. s e e d [默认 0]
随机数的种⼦设置它可以复现随机数据的结果,也可以⽤于调整参数。

本文发布于:2023-05-20 09:03:02,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/705551.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:参数   拟合   算法   函数   损失   数据   样本
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图