深度学习笔记(五)---损失函数与优化器
以下笔记来源:
[1] . 《pytorch深度学习实战》
[2] .pytorch 损失函数总结 ()
[3] .PyTorch学习之⼗种优化函数()
如有侵权,请联系删除!
pytorch框架中损失函数与优化器介绍:
⽬录
1. 损失函数:
损失函数,⼜叫⽬标函数,是编译⼀个神经⽹络模型必须的两个参数之⼀。另⼀个必不可少的参数是优化器。
花灯diy
损失函数是指⽤于计算标签值和预测值之间差异的函数,在机器学习过程中,有多种损失函数可供选择,典型的有距离向量,绝对值向量等。
上图是⼀个⽤来模拟线性⽅程⾃动学习的⽰意图。粗线是真实的线性⽅程,虚线是迭代过程的⽰意,w1 是第⼀次迭代的权重,w2 是第⼆次迭代的权重,w3 是第三次迭代的权重。随着迭代次数的增加,我们的⽬标是使得 wn ⽆限接近真实值。
耕耘树艺那么怎么让 w ⽆限接近真实值呢?其实这就是损失函数和优化器的作⽤了。图中 1/2/3 这三个标签分别是 3 次迭代过程中预测 Y 值和真实 Y 值之间的差值(这⾥差值就是损失函数的意思了,当然了,实际应⽤中存在多种差值计算的公式),这⾥的差值⽰意图上是⽤绝对差来表⽰的,那么在多维空间时还有平⽅差,均⽅差等多种不同的距离计算公式,也就是损失函数了,这么⼀说是不是容易理解了呢?
这⾥⽰意的是⼀维度⽅程的情况,那么发挥⼀下想象⼒,扩展到多维度,是不是就是深度学习的本质了?
下⾯介绍⼏种常见的损失函数的计算⽅法,pytorch 中定义了很多类型的预定义损失函数,需要⽤到的时候再学习其公式也不迟。
我们先定义两个⼆维数组,然后⽤不同的损失函数计算其损失值。
import torch
from torch.autograd import Variable
as nn
functional as F
sample = s(2,2))
a=torch.Tensor(2,2)
a[0,0]=0
a[0,1]=1
a[1,0]=2
a[1,1]=3
target = Variable (a)
sample 的值为:[[1,1],[1,1]]。
target 的值为:[[0,1],[2,3]]。
1.1 nn.L1Loss
L1Loss 计算⽅法很简单,取预测值和真实值的绝对误差的平均数即可。
criterion = nn.L1Loss()
loss = criterion(sample, target)
print(loss)
最后结果是:1。
它的计算逻辑是这样的:
先计算绝对差总和:|0-1|+|1-1|+|2-1|+|3-1|=4;
然后再平均:4/4=1。
1.2 nn.SmoothL1Loss
SmoothL1Loss 也叫作 Huber Loss,误差在 (-1,1) 上是平⽅损失,其他情况是 L1 损失。
criterion = nn.SmoothL1Loss()
loss = criterion(sample, target)
print(loss)
最后结果是:0.625。
1.3 nn.MSELoss
平⽅损失函数。其计算公式是预测值和真实值之间的平⽅和的平均数。
criterion = nn.MSELoss()小偷与警察
loss = criterion(sample, target)
print(loss)
最后结果是:1.5。
1.4 nn.BCELoss
⼆分类⽤的交叉熵,其计算公式较复杂,这⾥主要是有个概念即可,⼀般情况下不会⽤到。
criterion = nn.BCELoss()
loss = criterion(sample, target)
print(loss)
最后结果是:-13.8155。
1.5 nn.CrossEntropyLoss
交叉熵损失函数
该公式⽤的也较多,⽐如在图像分类神经⽹络模型中就常常⽤到该公式。
criterion = nn.CrossEntropyLoss()
loss = criterion(sample, target)
print(loss)
最后结果是:报错,看来不能直接这么⽤!
看⽂档我们知道 nn.CrossEntropyLoss 损失函数是⽤于图像识别验证的,对输⼊参数有各式要求,这⾥有这个概念就可以了,在图像识别⼀⽂中会有正确的使⽤⽅法。
1.6 nn.NLLLoss
负对数似然损失函数(Negative Log Likelihood)
在前⾯接上⼀个 LogSoftMax 层就等价于交叉熵损失了。注意这⾥的 xlabel 和上个交叉熵损失⾥的不⼀样,这⾥是经过 log 运算后的数值。这个损失函数⼀般也是⽤在图像识别模型上。
criterion = F.nll_loss()
loss = criterion(sample, target)
print(loss)
loss=F.nll_loss(sample,target)
最后结果会报错!
Nn.NLLLoss 和 nn.CrossEntropyLoss 的功能是⾮常相似的!通常都是⽤在多分类模型中,实际应⽤中我们⼀般⽤ NLLLoss ⽐较多。
1.7 nn.NLLLoss2d
和上⾯类似,但是多了⼏个维度,⼀般⽤在图⽚上。
input, (N, C, H, W)
target, (N, H, W)
⽐如⽤全卷积⽹络做分类时,最后图⽚的每个点都会预测⼀个类别标签。
criterion = nn.NLLLoss2d()
loss = criterion(sample, target)
五行属木又寓意好的字
print(loss)
同样结果报错!
2.优化器Optim
所有的优化函数都位于torch.optim包下,常⽤的优化器有:SGD,Adam,Adadelta,Adagrad,Adamax等,下⾯就各优化器分析。
2.1 使⽤
optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)
lr:学习率,⼤于0的浮点数
momentum:动量参数,⼤于0的浮点数
parameters:Variable参数,要优化的对象
模拟法
2.2 基类 Optimizer
torch.optim.Optimizer(params, defaults)
params (iterable) —— Variable 或者 dict的iterable。指定了什么参数应当被优化。
defaults —— (dict):包含了优化选项默认值的字典(⼀个参数组没有指定的参数选项将会使⽤默认值)。
2.3 ⽅法:
load_state_dict(state_dict):加载optimizer状态。
state_dict():以dict返回optimizer的状态。包含两项:state - ⼀个保存了当前优化状态的dict,param_groups - ⼀个包含了全部参数组的dict。
add_param_group(param_group):给 optimizer 管理的参数组中增加⼀组参数,可为该组参数定制 lr,momentum,
weight_decay 等,在 finetune 中常⽤。
step(closure) :进⾏单次优化 (参数更新)。
zero_grad() :清空所有被优化过的Variable的梯度。
3. 优化算法
3.1 随机梯度下降算法 SGD算法
SGD就是每⼀次迭代计算mini-batch的梯度,然后对参数进⾏更新,是最常见的优化⽅法了。即:
torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=Fal)
params (iterable) :待优化参数的iterable或者是定义了参数组的dict
lr (float) :学习率
momentum (float, 可选) :动量因⼦(默认:0)
weight_decay (float, 可选) :权重衰减(L2惩罚)(默认:0)
dampening (float, 可选) :动量的抑制因⼦(默认:0)
nesterov (bool, 可选) :使⽤Nesterov动量(默认:Fal)
可实现 SGD 优化算法,带动量 SGD 优化算法,带 NAG(Nesterov accelerated gradient)动量 SGD 优化算法,并且均可拥有
weight_decay 项。
对于训练数据集,我们⾸先将其分成n个batch,每个batch包含m个样本。我们每次更新都利⽤⼀个batch的数据,⽽⾮整个数据集。
这样做使得训练数据太⼤时,利⽤整个数据集更新往往时间上不现实。batch的⽅法可以减少机器的压⼒,并且可以快速收敛。
当训练集有冗余时,batch⽅法收敛更快。
优缺点:
SGD完全依赖于当前batch的梯度,所以η可理解为允许当前batch的梯度多⼤程度影响参数更新。对所有的参数更新使⽤同样的learning rate,选择合适的learning rate⽐较困难,容易收敛到局部最优。
3-2 平均随机梯度下降算法 ASGD算法
ASGD 就是⽤空间换时间的⼀种 SGD。
torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)
params (iterable) :待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) : 学习率(默认:1e-2)
西安联合学院lambd (float, 可选) :衰减项(默认:1e-4)
alpha (float, 可选) :eta更新的指数(默认:0.75)道德经解
t0 (float, 可选) :指明在哪⼀次开始平均化(默认:1e6)
weight_decay (float, 可选) :权重衰减(L2惩罚)(默认: 0)
3-3 Adagrad算法
AdaGrad算法就是将每⼀个参数的每⼀次迭代的梯度取平⽅累加后在开⽅,⽤全局学习率除以这个数,作为学习率的动态更新。
其中,r为梯度累积变量,r的初始值为0。ε为全局学习率,需要⾃⼰设置。δ为⼩常数,为了数值稳定⼤约设置为10^-7 。
torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)
params (iterable) :待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) :学习率(默认: 1e-2)
lr_decay (float, 可选) :学习率衰减(默认: 0)
weight_decay (float, 可选) : 权重衰减(L2惩罚)(默认: 0)
优缺点:
Adagrad 是⼀种⾃适应优化⽅法,是⾃适应的为各个参数分配不同的学习率。这个学习率的变化,会受到梯度的⼤⼩和迭代次数的影响。梯度越⼤,学习率越⼩;梯度越⼩,学习率越⼤。缺点是训练后期,学习率过⼩,因为 Adagrad 累加之前所有的梯度平⽅作为分母。随着算法不断迭代,r会越来越⼤,整体的学习率会越来越⼩。所以,⼀般来说AdaGrad算法⼀开始是激励收敛,到了后⾯就慢慢变成惩罚收敛,速度越来越慢。在深度学习算法中,深度过深会造成训练提早结束。
3-4 ⾃适应学习率调整 Adadelta算法
Adadelta是对Adagrad的扩展,主要针对三个问题:
>修拉素描