优化算法（一）SGD算法实现

更新时间:2023-05-12 10:40:24 阅读：评论：0

优化算法（⼀）SGD算法实现

SGD随机梯度下降算法，和最常⽤的GD相⽐，GD每⼀次迭代都是所有样本都⼀起进⾏计算，⽽SGD是每⼀次迭代中每个样本分别进⾏计算，梯度算法的最终⽬标是减少cost值，训练出最优的参数值，GD每⼀次迭代都让所有样本去优化参数，⼀次迭代进⾏⼀次优化，⽽SGD ⼀次只让⼀个样本去优化参数。

贴⼀下代码：

#SGD（w初始化使⽤ 2/sqrt（l-1））

def SGD_model(X,Y,layer_dims,iter_times,alphs):

costs = []

m = X.shape[1]

n = X.shape[0]

np.random.ed(3)

parameters = initialize_parameters(layer_dims)

for i in range(0,iter_times):

for j in range(0,m):

A,caches=forward_propagation(X[:,j].reshape(n,1),parameters)

cost=cpmpute_cost(A,Y[:,j].reshape(1,1))

grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters)

parameters=update_parameters(parameters,grads,alphs)

costs.append(cost)

if i%100 == 0:

print(cost)

return costs,parameters

测试⼀下：

n=train_data_finalX.shape[0]

layer_dims=[n,20,7,5,1]

costs,parameters=SGD_model(train_data_finalX,train_data_finalY,layer_dims,500,0.0003)

y_pred_train=predict(train_data_finalX,parameters)

print('train acc is ',np.mean(y_pred_train == train_data_finalY)*100,'%')

y_pred_test=predict(test_data_finalX,parameters)

print('test acc is ',np.mean(y_pred_test == test_data_finalY)*100,'%')

#可以看到cost减低的是很快的，这⾥打印出来的cost并不是每⼀次的cost值，只是挑着打印了⼏个

#这个cost也不是所有样本cost值加起来得到的，其实还是单个样本的cost值

#过拟合现象还是很严重的

0.6967667264512503

0.3580429544797275

0.1366511629971142

0.013014664339787691

0.005059855441099931

train acc is 100.0 %

test acc is 84.0 %

特别要注意的是，可能会遇到cost值不降低，或者降低到⼀定值以后就不变了，这种情况预测值得到的可能都是0，可以试试这⼏个解决办法：

1. w参数初始化，不要选择在random以后乘以0.01，如果激活函数使⽤的是tanh函数，使⽤（1/sqrt（上⼀层单元数）），如果使⽤

的是relu则试试（2/sqrt（上⼀层单元数）），参数初始化对结果有很⼤的影响⼒度。

2. 学习因⼦设置的⼩⼀点

3. 如果出现严重的过拟合现象，可以试试增加隐藏层，或者隐藏层单元数

本文发布于:2023-05-12 10:40:24，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/82/598329.html

上一篇：最新居间合同版(5篇)

下一篇：物流服务口号

标签：样本算法参数试试隐藏得到可能拟合

留言与评论（共有 0 条评论）