首页 > 美文鉴赏

强化学习——随机策略与策略梯度

更新时间:2023-07-14 03:08:41 阅读：评论：0

强化学习——随机策略与策略梯度

本⽂内容源⾃百度强化学习 7 ⽇⼊门课程学习整理

感谢百度 PARL 团队李科浇⽼师的课程讲解

1.value-bad 与policy-bad

value-bad先学习动作价值函数，训练的⽬的让Q值迭代更新到最优，然后再根据动作价值选择最优的动作。

护林防火工作总结>文明校园六个好policy-bad直接输出动作概率，动作的选择不再依赖于价值函数，⽽是⼀条策略⾛到底，看这条策略的好坏。

如何不紧张

value-bad

先求Q值，

prent

然后优化的也是Q值，

将Q⽹络调到最优后

，输出Q值最⼤的动作。

（确定性策略：优化最优后参数固定下来，输⼊同样的state后，输出同样的action）

policy-bad

神经⽹络输⼊状态state，直接输出动作action

(随机策略：输出的是动作的概率)中是神经⽹络的参数：权重，偏置，表⽰在st状态下输出at的概率，所

有动作的概率相加为1，

概率越⼤的动作越容易采样到，适⽤剪⼑⽯头布这种随机性⽐较⼤的游戏中，经过⼀段时间后可能发现，3个动作的概率为33%，如果使⽤DQN，可能最后⼀直⼀个动作。

2.softmax函数

3.举例：策略⽹络输⼊的是整个图像（向量或矩阵），输出的是3个动作的概率（向量），然后根据这个概率随机挑选⼀个动作输出

代表策略输出的概率，在状态s下选择a的概率，由于环境的随机性，不同的策略到不同

的环境，这个概率⽤p来表述，称作状态转移概率。代表智能体在环境s选择动作a后有

多少概率去s'（智能体的选择是可以优化的，环境的随机性是⽆法⼈为控制的）

当我们选择⼀个动作以后，其实并不知道动作的优劣，⽽只有最终游戏结束得到结果的时候，我们才能反推之前的动作优劣每⼀个 episode 中，agent 不断和环境交互，输出动作，直到该 episode 结束，然后开启另⼀个 episode。

优化策略的⽬的：让 “每⼀个” episode 的 “总的” reward 尽可能⼤

单个 episode 有很多 step 组成，每个 step 会获得 reward

所有 episode 总的 reward 希望最⼤冰片

所以怎么去量化我的优化⽬标就是个难点！

期望回报：

在正常的情况下不会穷举所有的轨迹，且环境转移概率也不易计算，所以当N⾜够⼤的时候，交互N个episode，拿到的分数求平均，近似拟合期望回报，这个过程称作采样。

4.策略梯度

DQN优化Q⽹络构造⼀个Loss函数作为优化⽬标，拿Q预测逼近QtargetLoss函数越⼩越好，

Policy⽹络输⼊状态s，输出动作action，其没有正确的label指导，不知道该状态下什么action⽐较好，所以要采⽤期望回报来进⾏优化⽬标，其优化⽬标越⼤越好，这个操作叫做梯度上升，神经⽹络的参数更新需要根据梯度决定更新⽅向，所以需要求解

对的梯度来更新⽹络。

为了计算策略梯度，需要产⽣n条轨迹，每⼀条轨迹都可以求出⼀个和

关于落日的诗句（的导数，求导的过程可以约去不可知的环境转移概率）

激励自己奋斗的话

可通过多条轨迹，计算梯度，来更新⽹络，让分数⾼的轨迹对应的动作的概率更⼤⼀些，根据

爱玩兄弟

可以反推Loss函数，所以 loss 的公式前⾯要加上负号，这样就可以让梯度下降变成梯度上升。

本文发布于:2023-07-14 03:08:41，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/1080655.html

上一篇：ElementUI----validator表单校验

下一篇：列线图什么鬼？听说它能把logistic结果变得更易看懂？！

标签：动作概率梯度策略输出环境函数优化

留言与评论（共有 0 条评论）