强化学习——随机策略与策略梯度
本⽂内容源⾃百度强化学习 7 ⽇⼊门课程学习整理
感谢百度 PARL 团队李科浇⽼师的课程讲解
1.value-bad 与policy-bad
value-bad先学习动作价值函数,训练的⽬的让Q值迭代更新到最优,然后再根据动作价值选择最优的动作。
护林防火工作总结>文明校园六个好policy-bad直接输出动作概率,动作的选择不再依赖于价值函数,⽽是⼀条策略⾛到底,看这条策略的好坏。
如何不紧张
value-bad
先求Q值,
prent
然后优化的也是Q值,
将Q⽹络调到最优后
,输出Q值最⼤的动作。
(确定性策略:优化最优后参数固定下来,输⼊同样的state后,输出同样的action)
policy-bad
神经⽹络输⼊状态state,直接输出动作action
(随机策略:输出的是动作的概率)中是神经⽹络的参数:权重,偏置,表⽰在st状态下输出at的概率,所
有动作的概率相加为1,
概率越⼤的动作越容易采样到,适⽤剪⼑⽯头布这种随机性⽐较⼤的游戏中,经过⼀段时间后可能发现,3个动作的概率为33%,如果使⽤DQN,可能最后⼀直⼀个动作。
2.softmax函数
3.举例:策略⽹络输⼊的是整个图像(向量或矩阵),输出的是3个动作的概率(向量),然后根据这个概率随机挑选⼀个动作输出
代表策略输出的概率,在状态s下选择a的概率,由于环境的随机性,不同的策略到不同
的环境,这个概率⽤p来表述,称作状态转移概率。代表智能体在环境s选择动作a后有
多少概率去s'(智能体的选择是可以优化的,环境的随机性是⽆法⼈为控制的)
当我们选择⼀个动作以后,其实并不知道动作的优劣,⽽只有最终游戏结束得到结果的时候,我们才能反推之前的动作优劣每⼀个 episode 中,agent 不断和环境交互,输出动作,直到该 episode 结束,然后开启另⼀个 episode。
优化策略的⽬的:让 “每⼀个” episode 的 “总的” reward 尽可能⼤
单个 episode 有很多 step 组成,每个 step 会获得 reward
所有 episode 总的 reward 希望最⼤冰片
所以怎么去量化我的优化⽬标就是个难点!
期望回报:
在正常的情况下不会穷举所有的轨迹,且环境转移概率也不易计算,所以当N⾜够⼤的时候,交互N个episode,拿到的分数求平均,近似拟合期望回报,这个过程称作采样。
4.策略梯度
DQN优化Q⽹络构造⼀个Loss函数作为优化⽬标,拿Q预测逼近QtargetLoss函数越⼩越好,
Policy⽹络输⼊状态s,输出动作action,其没有正确的label指导,不知道该状态下什么action⽐较好,所以要采⽤期望回报来进⾏优化⽬标,其优化⽬标越⼤越好,这个操作叫做梯度上升,神经⽹络的参数更新需要根据梯度决定更新⽅向,所以需要求解
对的梯度来更新⽹络。
为了计算策略梯度,需要产⽣n条轨迹,每⼀条轨迹都可以求出⼀个和
关于落日的诗句(的导数,求导的过程可以约去不可知的环境转移概率)
激励自己奋斗的话
可通过多条轨迹,计算梯度,来更新⽹络,让分数⾼的轨迹对应的动作的概率更⼤⼀些,根据
爱玩兄弟
可以反推Loss函数,所以 loss 的公式前⾯要加上负号,这样就可以让梯度下降变成梯度上升。