优化算法(⼀)SGD算法实现
SGD随机梯度下降算法,和最常⽤的GD相⽐,GD每⼀次迭代都是所有样本都⼀起进⾏计算,⽽SGD是每⼀次迭代中每个样本分别进⾏计算,梯度算法的最终⽬标是减少cost值,训练出最优的参数值,GD每⼀次迭代都让所有样本去优化参数,⼀次迭代进⾏⼀次优化,⽽SGD ⼀次只让⼀个样本去优化参数。
贴⼀下代码:
#SGD(w初始化使⽤ 2/sqrt(l-1))
def SGD_model(X,Y,layer_dims,iter_times,alphs):
costs = []
m = X.shape[1]
n = X.shape[0]
np.random.ed(3)
parameters = initialize_parameters(layer_dims)
for i in range(0,iter_times):
for j in range(0,m):
A,caches=forward_propagation(X[:,j].reshape(n,1),parameters)
cost=cpmpute_cost(A,Y[:,j].reshape(1,1))
grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters)
parameters=update_parameters(parameters,grads,alphs)
costs.append(cost)
if i%100 == 0:
print(cost)
return costs,parameters
测试⼀下:
n=train_data_finalX.shape[0]
layer_dims=[n,20,7,5,1]
costs,parameters=SGD_model(train_data_finalX,train_data_finalY,layer_dims,500,0.0003)
y_pred_train=predict(train_data_finalX,parameters)
print('train acc is ',np.mean(y_pred_train == train_data_finalY)*100,'%')
y_pred_test=predict(test_data_finalX,parameters)
print('test acc is ',np.mean(y_pred_test == test_data_finalY)*100,'%')
#可以看到cost减低的是很快的,这⾥打印出来的cost并不是每⼀次的cost值,只是挑着打印了⼏个
#这个cost也不是所有样本cost值加起来得到的,其实还是单个样本的cost值
#过拟合现象还是很严重的
0.6967667264512503
0.3580429544797275
0.1366511629971142
0.013014664339787691
0.005059855441099931
train acc is 100.0 %
test acc is 84.0 %
特别要注意的是,可能会遇到cost值不降低,或者降低到⼀定值以后就不变了,这种情况预测值得到的可能都是0,可以试试这⼏个解决办法:
1. w参数初始化,不要选择在random以后乘以0.01,如果激活函数使⽤的是tanh函数,使⽤(1/sqrt(上⼀层单元数)),如果使⽤
的是relu则试试(2/sqrt(上⼀层单元数)),参数初始化对结果有很⼤的影响⼒度。
2. 学习因⼦设置的⼩⼀点
3. 如果出现严重的过拟合现象,可以试试增加隐藏层,或者隐藏层单元数