机器学习算法系列(18):方差偏差权衡(Bias-Variance Tradeoff)

更新时间:2023-05-11 11:25:31 阅读: 评论:0

Bias 和Variance 是针对Generalization (泛化、⼀一般化)来说的。在机器器学习中,我们⽤用训练数据集学习⼀一个模型,我们通常会定义⼀一个损失函数(Loss Function ),然后将这个Loss (或者叫error )的最⼩小化过程,来提⾼高模型的性能(performance )。然⽽而我们学习⼀一个模型的⽬目的是为了了解决实际的问题(即将训练出来的模型运⽤用于预测集),单纯地将训练数据集的Loss 最⼩小化,并不不能保证解决更更⼀一般的问题时模型仍然是最优的,甚⾄至不不能保证模型是可⽤用的。这个训练数据集的Loss 与⼀一般化的数据集(预测数据集)的Loss 之间的差异就叫做Generalization error 。⽽而Generalization error ⼜又可以细分为Random Error 、Bias 和Variance 三个部分。⾸首先需要说的是随机误差。它是数据本身的噪声带来的,这种误差是不不可避免的。
其次如果我们能够获得所有可能的数据集合,并在这个数据集合上将Loss 最⼩小化,这样学习到的模型就可以称之为“真实模型”,当然,我们是⽆无论如何都不不能获得并训练所有可能的数据的,所以真实模型⼀一定存在,但⽆无法获得,我们的最终⽬目标就是去学习⼀一个模型使其更更加接近这个真实模型。
Bias 和Variance 分别从两个⽅方⾯面来描述了了我们学习到的模型与真实模型之间的差距(除去随机误差)。
Bias 描述的是对于测试数据集,“⽤用所有可能的训练数据集训练出的所有模型的输出预测结果的期望”
与“真实模型”的输出值(样本真实结果)之间的差异。简单讲,就是在样本上拟合的好不不好。要想在bias 上表现好,low bias ,就是复杂化模型,增加模型的参数,但这样容易易过拟合(overfitting)。
Variance 则是“不不同的训练数据集训练出的模型”的输出值之间的差异。
在⼀一个实际系统中,Bias 与Variance 往往是不不能兼得的。如果要降低模型的Bias ,就⼀一定程度上会提⾼高模型的Variance ,反之亦然。造成这种现象的根本原因是,我们总是希望试图⽤用有限训练样本去估计⽆无限的真实数据。当我们更更加相信这些数据的真实性,⽽而忽视对模型的先验知识,就会尽量量保证模型在训练样本上的准确度,这样可以减少模型的Bias 。但是,这样学习到的模型,机器器学习算法系列列(18):⽅方差偏差权衡(Bias-Variance Tradeo ff)
⼀一、定义
1.1 感性解释
很可能会失去⼀一定的泛化能⼒力力,从⽽而造成过拟合,降低模型在真实数据上的表现,增加模型的不不确定性。相反,如果更更加相信我们对于模型的先验知识,在学习模型的过程中对模型增加更更多的限制,就可以降低模型的variance,提⾼高模型的稳定性,但也会使模型的Bias增⼤大。Bias与Variance两者之间的trade-off是机器器学习的基本主题之⼀一,机会可以在各种机器器模型中发现它的影⼦子。
1.2 图示解释
下图将机器器学习任务描述为⼀一个打靶的活动:根据相同算法、不不同训练数据集训练出的模型,对同⼀一个样本进⾏行行预测;每个模型作出的预测相当于是⼀一次打靶。
左上⻆角的示例例是理理想状况:偏差和⽅方差都⾮非常⼩小。如果有⽆无穷的训练数据,以及完美的模型算法,我们是有办法达成这样的情况的。然⽽而,现实中的⼯工程问题,通常数据量量是有限的,⽽而模型也是不不完美的。因此,这只是⼀一个理理想状况。
右上⻆角的示例例表示偏差⼩小⽽而⽅方差⼤大。靶纸上的落点都集中分布在红⼼心周围,它们的期望落在红⼼心之内,因此偏差较⼩小。另⼀一⽅方⾯面,落点虽然集中在红⼼心周围,但是⽐比较分散,这是⽅方差⼤大的表现。
左下⻆角的示例例表示偏差⼤大⽽而⽅方差⼩小。显⽽而易易⻅见,靶纸上的落点⾮非常集中,说明⽅方差⼩小。但是落点集中的位置距离红⼼心很远,这是偏差⼤大的表现。
右下⻆角的示例例则是最糟糕的情况,偏差和⽅方差都⾮非常⼤大。这是我们最不不希望看到的结果。再看⼀一个来⾃自PRML
的例例⼦子:
这是⼀一个曲线拟合的问题,对同分布的不不同数据集进⾏行行了了多次的曲线拟合,左边表示⽅方差
(variance ),右边表示偏差(bias ),绿⾊色是真实值函数。表示的是模型的复杂度,这个值越⼩小,表示模型的复杂程度越⾼高,在第⼀一⾏行行,⼤大家的复杂度都很低的时候,⽅方差是很⼩小的,但是偏差很⼤大;但是到了了最后⼀一幅图,我们可以得到,每个⼈人的复杂程度都很⾼高的情况下,不不同的函数就有着天壤之别了了,所以⽅方差就很⼤大,但此时偏差就很⼩小了了。
排除⼈人为的失误,⼈人们⼀一般会遇到三种误差来源:随机误差、偏差和⽅方差。
In λ1.3 数学解释
的Overfitting (过拟合)。
考虑到模型误差是偏差与⽅方差的加和,因此我们可以绘制出这样的图像。
图中的最优位置,实际上是Total Error 曲线的拐点。我们知道,连续函数的拐点意味着此处⼀一阶导数的值为0。即
这个公式给出了了寻找最优平衡点的数学描述。若模型复杂度⼩小于平衡点,则模型的偏差会偏⾼高,模型倾向于⽋欠拟合;若模型复杂度⼤大于平衡点,则模型的⽅方差会偏⾼高,模型倾向于过拟合。
尽管有了了上述的数学表述,但是在现实环境中,有时候我们很难计算模型的偏差与⽅方差。因此,我们需要通过外在表现,判断模型的拟合状态:是⽋欠拟合还是过拟合。
同样地,在有限的训练数据集中,不不断增加模型的复杂度,意味着模型会尽可能多地降低在训练集上的误差。因此在训练集上,不不断地增加模型的复杂度,训练集上的误差会⼀一直下降。我们把数据分为三个部分:训练数据集、验证数据集、测试数据集。
因此,我们可以绘制出这样的图像。==+=0d (Total  Error )d (Complexity )d (Bias +Variance )d (Complexity )d (Bias )d (Complexity )d (Variance )d (Complexity )
3.2 过拟合与⽋欠拟合的外在表现

本文发布于:2023-05-11 11:25:31,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/104460.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   数据   训练
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图