weight_decay⼀般设置为多少_也来说说超参数
learningrate,weigh。。。
先看⼏个公式!
(1)
(2)
(3)
长沙游玩超参数是指机器学习模型⾥⾯的框架参数,和训练过程中学习的参数(权重)不⼀样,超参数通常是⼿⼯设定,不断试错调整,或者对⼀系列穷举出来的参数组合⼀通进⾏枚举(⽹格搜索)。
深度学习和神经⽹络模型,有很多这样的参数需要学习。时⾄今⽇,⾮参数学习研究正在帮助深度学习更加⾃动的优化模型参数选择,当然有经验的专家仍然是必须的。
冬至吃饺子的由来
Learning Rate (gradient coefficient)
上⾯(1)式中的
。
公司年会演讲稿
Weight decay (regularization
学习率决定了权值更新的速度,设置得太⼤会使结果超过最优值,太⼩会使下降速度过慢。 Weight decay (regularization coefficient)
青春有悔上⾯(2)式中的
。
在实际应⽤中,为了避免⽹络的过拟合,必须对误差函数E(⽹络术语中也叫损失函数loss function,是⼀个意思)正则化(regularization)处理,即加⼊正则项。
在机器学习或者模式识别中,过拟合overfitting的出现,往往是因为⽹络权值变得过⼤,换句话说,参数过⼤往往是因为数据的⾼频跳跃成份所导致,因此,避免出现overfitting的办法就是想办法抵消这些过⼤的参数值,也就是给误差函数添加⼀个惩罚项,如(2)式所⽰。
正则化的基本思想就是通过惩罚项来消减不必要的过⼤的参数(有⼈把这⽐喻成奥卡姆剃⼑),通过惩罚项,消除这些不必要的值的影响,使曲线更平滑。对最后结果的影响是,⽹络中重要的权重不会受到Weight decay影响。
Momentum
进⼀步参考wikipedia Regularization.Momentum
上⾯(3)式中的
。
动量来源于⽜顿定律,基本思想是为了找到最优加⼊“惯性”的影响。例如,当误差曲⾯中存在平坦区域时,我们可以通过调整这个值使权值加⼤(加重),从⽽在每次递推时(iteration),迈出更⼤的步伐,加速收敛。
⼀个典型的m就是,通过积累历史搜索⽅向(典型的就是在SGD中,通过线性组合以前的历史搜索⽅向来更新当前的⽅向),避免或者说消除与以前搜索⽅向相反的⽅向(怎么看都像是共轭梯度法呀,只不过没有明确的共轭⽅向,因⽽不能保证共轭;当然,这⾥确实可以另改为采⽤共轭的⽅向)。
属猪本命佛注:这⾥只是⽰意,(3)式⼀般⽂献中标准的写法为
其中
通话自动录音为momentum coefficient,它是上⼀次权重的变化量的系数,另⼀种写法对应关系如下
则可写成参考【1】所⽰的形式
Learning Rate Decay
怎样炒虾仁
该⽅法是为了提⾼寻优能⼒,具体做法就是每次迭代的时候减少学习率的⼤⼩。
圣诞老人简笔画
在训练模型的时候,通常会遇到这种情况:我们平衡模型的训练速度和损失(loss)后选择了相对合适的学习率(learning rate),但是训练集的损失下降到⼀定的程度后就不再下降了,⽐如training loss⼀直在0.8和0.9之间来回震荡,不能进⼀步下降。如下图所⽰:
遇到这种情况通常可以通过适当衰减学习率(learning rate)来实现。也就是让学习率随着训练的进⾏逐渐衰减,放缓在平缓区的学习,⽐如说线性衰减(如每过5个epochs学习率减半)或指数衰减(如每过5个epochs将学习率乘以0.9)
⾄于如何调节参数,可参考专业⽂献,如:
a disciplined approach to neural network hyper-parameters: part 1 – learning rate, batch size, momentum, and weight decay Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates
【2】:CS231n Convolutional Neural Networks for Visual Recognition