L1正则化与L2正则化(详解)

更新时间:2023-06-07 01:42:17 阅读: 评论:0

L1正则化与L2正则化(详解)
L1正则化与L2正则化
正则化之所以能够降低过拟合的原因在于,正则化是结构风险最⼩化(模型结构最简单,经验风险最⼩化就是训练误差⼩)的⼀种策略实现。 给loss function加上正则化项,能使得新得到的优化⽬标函数h = f+normal,需要在f和normal中做⼀个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到⼀组解⽐较复杂,使得正则项normal⽐较⼤,那么h就不是最优的,因此可以看出加正则项能让解更加简单,符合奥卡姆剃⼑理论(如⽆必要,勿增实体),同时也⽐较符合在偏差和⽅差(⽅差表⽰模型的复杂度)分析中,通过降低模型复杂度,得到更⼩的泛化误差,降低过拟合程度。
L1正则化和L2正则化: L1正则化就是在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0⽐较多)。L2正则化就是loss function后边所加正则项为L2范数的平⽅,加上L2正则相⽐于L1正则来说,得到的解⽐较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度⽐较多,降低模型的复杂度。胶水成分
那么接下来我们思考⼀个问题。假设我们知道L1正则的稀疏性要⽐L2正则的稀疏性好,那么我们为什么要对这种稀疏性趋之若鹜呢?
我们对稀疏规则趋之若鹜的⼀个关键原因在于它能实现特征的⾃动选择。⼀般来说,⼤部分特征 x_i 都是和最终的输出 y_i 没有关系或者不提供任何信息的。在最⼩化⽬标函数的时候考虑 x_i 这些额外的特征,虽然可以获得更⼩的训练误差,但在预测新的样本时,这些没⽤的特征权重反⽽会被考虑,从⽽⼲扰了对正确 y_i 的预测。L1 正则化的引⼊就是为了完成特征⾃动选择的光荣使命,它会学习地去掉这些⽆⽤的特征,也就是把这些特征对应的权重置为 0。
那么L2正则存在的意义是什么呢?
L2正则存在的意义就是加速权重衰减的速度,也就是加⼤了对权重的惩罚。
下⾯来讲⼀下两种正则化的理论知识和直观理解。
如何淡斑
鱼有心脏吗
捡贝壳下⾯讲⼀下l1 和l2 正则化的来源的推导。
基于最⼤后验概率估计的理解。
离职说明
英语课课练答案我们的⽬的就是通过对w合理的取值然后最⼩化后验概率函数。取消呼叫转移怎么设置
拉普拉斯分布
⾼斯分布
所以从上⾯的两张图可以看得出来,拉普拉斯分布(l1)会直接取到0,⽽⾼斯分布(l2)则会更加接近零。银铃般的笑声

本文发布于:2023-06-07 01:42:17,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1009706.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:正则   特征   降低   得到   权重
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图