首页 > 英文翻译

强化学习入门（二）强化学习MDP四元组，Q表格的概念和更新策略

更新时间:2023-06-15 06:23:47 阅读：评论：0

强化学习⼊门（⼆）强化学习MDP 四元组，Q 表格的概念和更新策略本⽂内容源⾃百度强化学习 7 ⽇⼊门课程学习整理

感谢百度 PARL 团队李科浇⽼师的课程讲解

⽂章⽬录

⼀、强化学习MDP 四元组

<S,A,P,R>

S：状态 state

A：动作 action

R：奖励 reward

P：状态转移概率 probability

1.1 状态转移概率

在 t 时刻，处于的状态，选择了的动作，的情况下：

转移到状态，并且获得奖励，的概率

该状态转移概率符合 “马尔可夫”

因为的状态仅仅与相关，与，还是都没有关系

还取决于智能体与环境交互的动作，有了⼀个决策过程在⾥⾯

所以这个过程叫做 “马尔可夫决策过程” Markov Decision Process，简称 MDP，是序列决策的经典表达⽅式根据状态（环境）变化，产⽣的⼀系列的决策过程，就是与环境的交互产⽣的经验

1.2 如何描述环境使⽤ P 函数和 R 函数P函数：probability function：反映了⼀个环境的随机性：⼀个状态下作出决策后，可能有多种结果，不同结果存在不同的概率

R函数：reward function：在动态规划下，P函数和R函数都是已知的，即 Model-bad，我们可以根据现有条件作出最优规划

1.3 Mode-free 试错探索

在强化学习的实际环境中，P 函数和 R 函数都是未知的，所以是 Mode-free

价值函数 V(s ) 表⽰在 t 时刻的状态的优劣

⽤ Q(s , a ) 值表⽰，在 s 状态下做动作 a 能拿到（最⼤）的奖励（的概率）

⼆、Q 表格

1.1 Q 值表格概念

p [s ,r ∣s ,a ]

t +1t t t s t a t s t +1r t s t +1s t s t −1s t −2a t p [s ,r ∣s ,a ]

t +1t t t r [s ,a ]

t t t t t t t

Q 表⽰状态动作价值

是累积的经验，取得成功所需的知识

例如：

在某⼀状态 S 下，我们可以采取 2 个动作：A 和 B

采取 A 动作以后，100% 获得 10 分

采取 B 动作以后，90% 获得 5 分，10% 获得 15 分

那么 Q(S,A) = 100% * 10 = 10，Q(S,B) = 90% * 5 + 10% * 15 = 6

以上的例⼦中，之所以我们知道概率分布，是因为这个 Q 表是训练后的结果

Q 表中累积的学习到的知识，所以应⽤的时候，我们很⾃然的会在 S 状态下选择 A 的动作

以获得最⼤的回报

但是上⾯的例⼦仅仅是⼀次选择

在实际中，我们会⾯对多次选择，于是我们要看的是做了⼀系列选择以后，最终的回报最⼤的，才是最优路径儿童环保服装设计图

nds是什么所以要把（预估）后续的所有收益及其对应概率，都累计到当前状态下做计算

所以在强化学习中，环境给到的 reward ，即环境的反馈就⾮常重要！

1.2 Q 表格的⽬标导向型

我们要看的是总收益，来更新 Q 表格

例⼦：救护车闯红灯

假设每个交通灯，正常通过是 0 分，闯红灯时 -1 分，⼀共有 10 个红绿灯路⼝

那么对于⼀个普通的汽车来说，通过这⼀段路最⾼的分数就是 0，即每次都不闯红灯

但是对于救护车来说，我要⽤最短的时间把病⼈及时送到医院，可以获得 1000 分，病⼈死亡则 0 分

这时候最优的⽅法是每次都闯红灯，前⾯获得 -10，最后获得 1000，总分 990

这个例⼦中每⼀步设定的 Q(s,a) 不能只看当前这⼀步的收益，要看未来总收益：

G = R +R +R +R +…+R 例⼦：股票投资

关注累积收益，但是股票交易是永续进⾏的，所以⽆法考虑未来收益只和

我们⽆法得到 t 时刻预期的未来总收益：

G = R +R +R +…

所以要引如 “衰减因⼦”：

G = R +γR +γR +…

这⾥的衰减因⼦ γ 取值范围 0～1，等于 1 的时候即看到最后⼀步，等于 0 的时候即只看后⼀步

约后⾯的收益对当前的价值影响越⼩

1.3 实践：悬崖问题（快速到达⽬的地）

问题描述：

1234T

t t+1t+2t+3t t+1t+22t+3

在⼀张地图上，我们要从起点 S 到达终点 G，每⾛⼀步 reward 为 -1（因为我们希望越快到达越好）

掉下悬崖⼀次 reward 为 -100（所以我们希望避免发⽣），并回到起点

到达终点 G 的时候游戏结束

设定 reward 的衰减因⼦ γ

当前时刻 t，可获得的收益预期总计：G = R + γR + γR + … = γ 取 0 代表⽬光短浅

γ 取 1 代表⽬光过于长远

我们选择⼀条路⾛完以后，就可以知道这条路径上每⼀个状态路径的价值

所以多次尝试以后，就可以做出更优的选择

⽽不断地尝试，即在更新 Q 值表格，由这个表格指导每⼀步动作

所以这个表格的维度是（状态总数，每个状态下的动作总数），初始化的时候都为 0

Agent 和环境的交互，就是不断更新 Q 表格

三、强化学习更新 Q 表格

核⼼：⽤下⼀个状态的 Q 值来更新当前状态的 Q 值

这⾥利⽤到了统计⾥⾯的 Bootstrapping （⾃举）算法glimp

强化学习中叫做：时序差分更新⽅法

我的理解是：

由于每⼀次都⽤下⼀个状态来更新这⼀个状态，于是最后的累积 reward 会向前传递，最终影响整个路径

类似于多重条件反射（反射链条）

例⼦：斯坦福的状态价值迭代⼩游戏

可以看到游戏中，⼩球不断试错，最后产⽣价值判断，终点的 +1 reward 会不断影响周边的格⼦

然后这个影响⼒会往起点延伸，最终形成⼀条最优路径cri中国国际广播电台

3.1 Temporal Difference 时序差分（TD 单步更新）

公式：

t t+1t+22t+3γR ∑k =0∞k t +k +1

Q (S ,A ) ← t t Q (S ,A ) + t t α[R + t +1γQ (S ,A ) + t +1t +1Q (S ,A )]

t t

当前值：⽬标值：我们希望 “当前值” 可以不断逼近 “⽬标值”⽬标值：即未来收益只和（reward）就近似等于软更新：通过参数 α 来控制每次更新的幅度（可以理解为学习速率 learning rate）α 为 0，则表⽰不更新

α 为 1，则表⽰完全更新

所以这个更新公式，⽤到的是：

当前时刻的 S ，A ，下⼀时刻的 R ，S ，A （与环境交互后产⽣）

folder这就组成了 Sarsa 算法

3.2 与环境交互

1. 根据Q表选动作（agent）预测/评估：sample()

执⾏动作（带有探索概率）：sample()

2. 与环境交互（enviroment）获得 State 和 Reward

获得下⼀步的动作预测和决策

3. 更新 Q 表（agent）

学习：learn()

四、相关⽅法和策略

4.1 Epsilon Greedy ⽅法

权衡探索和利⽤之间的概率：

Q (S ,A )

英语语音学

t t R + t +1γQ (S ,A )

t +1t +1Target = G = t R + t +1γR + t +2γR = 2t +3γR ∑k =0∞

k t +k +1

G t = R + γR + γR + γR t +1t +22t +33t +4

禁止吸烟的英文= R + γ(R + γR + γR )

t +1t +2t +32t +4= R + γG t +1t +1Q (S ,A )t +1t +1G t +1

α[R + t +1γQ (S ,A ) + t +1t +1Q (S ,A )]

t t t t t t+1t+1

利⽤ Exploitation：最优选（概率 ε）

探索 Exploration：随机选（概率 1-ε）professional什么意思

1. 假设 ε 设置为 0.1

2. 在当前状态下，选择最优的选择提取出来

3. 然后 90% 在最优选择中随机选⼀个动作

4. 10% 在所有选择中随机选⼀个动作

如果没有探索，那我们⽆法找到⽐当前最优更优的选择

在 Sarsa 算法中，由于在动作选择上⼀定存在 “探索” 的可能性，所以最终优化的路径是⼀条保守的路径，⽽不是最优的路径！

4.2 On-Policy 和 Off-Policy 策略

On-Policy：⽤于优化的，是实际会被执⾏的策略

⽐如 Sarsa

英语广播电台在学习过程中，只存在⼀种策略

这种策略⽤作 Action 的选取

这种策略也⽤作优化（更新 Q 表）

先采样下⼀步，再更新 Q 表sneaky

由于需要兼顾探索，所以策略 π 并不稳定

Off-Policy：⽤于优化的，

⽐如 Q-Learning

保留两种策略

⾏为策略（μ）：Behavior Policy，⽤于⼤胆地探索环境，执⾏动作，获取经验

⽬标策略（π）：Target Policy，使⽤最优策略来进⾏优化（更新Q表），但是这个策略不⼀定被执⾏

先更新 Q 表，再采样下⼀步

本文发布于:2023-06-15 06:23:47，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/145615.html

上一篇：案例7章-10章

下一篇：dqn在训练过程中loss越来越大_深度强化学习之DQN实战

标签：状态环境学习动作概率收益选择强化

留言与评论（共有 0 条评论）