强化学习入门(二)强化学习MDP四元组,Q表格的概念和更新策略

更新时间:2023-06-15 06:23:47 阅读: 评论:0

强化学习⼊门(⼆)强化学习MDP 四元组,Q 表格的概念和更新策略本⽂内容源⾃百度强化学习 7 ⽇⼊门课程学习整理
感谢百度 PARL 团队李科浇⽼师的课程讲解
⽂章⽬录
⼀、强化学习MDP 四元组
<S,A,P,R>
S:状态 state
A:动作 action
R:奖励 reward
P:状态转移概率 probability
1.1 状态转移概率
在 t 时刻,处于  的状态,选择了 的动作,的情况下:
转移到  状态,并且获得  奖励,的概率
该状态转移概率符合 “马尔可夫”
因为  的状态仅仅与  相关,与  ,还是  都没有关系
还取决于智能体与环境交互的动作 ,有了⼀个决策过程在⾥⾯
所以这个过程叫做 “马尔可夫决策过程” Markov Decision Process,简称 MDP,是序列决策的经典表达⽅式根据状态(环境)变化,产⽣的⼀系列的决策过程,就是与环境的交互产⽣的经验
1.2 如何描述环境使⽤ P 函数 和 R 函数P函数:probability function:反映了⼀个环境的随机性:⼀个状态下作出决策后,可能有多种结果,不同结果存在不同的概率
R函数:reward function:在动态规划下,P函数和R函数都是已知的,即 Model-bad,我们可以根据现有条件作出最优规划
1.3 Mode-free 试错探索
在强化学习的实际环境中,P 函数 和 R 函数都是未知的,所以是 Mode-free
价值函数 V(s ) 表⽰在 t 时刻的状态的优劣
⽤ Q(s  , a ) 值表⽰,在 s  状态下做动作 a  能拿到(最⼤)的奖励(的概率)
⼆、Q 表格
1.1 Q 值表格概念
p [s ,r ∣s ,a ]
t +1t t t s t a t s t +1r t s t +1s t s t −1s t −2a t p [s ,r ∣s ,a ]
t +1t t t r [s ,a ]
t t t t t t t
Q 表⽰状态动作价值
是累积的经验,取得成功所需的知识
例如:
在某⼀状态 S 下,我们可以采取 2 个动作:A 和 B
采取 A 动作以后,100% 获得 10 分
采取 B 动作以后,90% 获得 5 分,10% 获得 15 分
那么 Q(S,A) = 100% * 10 = 10,Q(S,B) = 90% * 5 + 10% * 15 = 6
以上的例⼦中,之所以我们知道概率分布,是因为这个 Q 表是训练后的结果
Q 表中累积的学习到的知识,所以应⽤的时候,我们很⾃然的会在 S 状态下选择 A 的动作
以获得最⼤的回报
但是上⾯的例⼦仅仅是⼀次选择
在实际中,我们会⾯对多次选择,于是我们要看的是做了⼀系列选择以后,最终的回报最⼤的,才是最优路径儿童环保服装设计图
nds是什么所以要把(预估)后续的所有 收益 及其对应 概率 ,都累计到当前状态下做计算
所以在强化学习中,环境给到的 reward ,即环境的反馈就⾮常重要!
1.2 Q 表格的⽬标导向型
我们要看的是总收益,来更新 Q 表格
例⼦:救护车闯红灯
假设每个交通灯,正常通过是 0 分,闯红灯时 -1 分,⼀共有 10 个红绿灯路⼝
那么对于⼀个普通的汽车来说,通过这⼀段路最⾼的分数就是 0,即每次都不闯红灯
但是对于救护车来说,我要⽤最短的时间把病⼈及时送到医院,可以获得 1000 分,病⼈死亡则 0 分
这时候最优的⽅法是每次都闯红灯,前⾯获得 -10,最后获得 1000,总分 990
这个例⼦中每⼀步设定的 Q(s,a) 不能只看当前这⼀步的收益,要看未来总收益:
G = R +R +R +R +…+R 例⼦:股票投资
关注累积收益,但是股票交易是永续进⾏的,所以⽆法考虑未来收益只和
我们⽆法得到 t 时刻预期的未来总收益:
G = R +R +R +…
所以要引如 “衰减因⼦”:
G = R +γR +γR +…
这⾥的 衰减因⼦ γ 取值范围 0~1,等于 1 的时候即看到最后⼀步,等于 0 的时候即只看后⼀步
约后⾯的收益对当前的价值影响越⼩
1.3 实践:悬崖问题(快速到达⽬的地)
问题描述:
1234T
t t+1t+2t+3t t+1t+22t+3
在⼀张地图上,我们要从起点 S 到达终点 G,每⾛⼀步 reward 为 -1(因为我们希望越快到达越好)
掉下悬崖⼀次 reward 为 -100(所以我们希望避免发⽣),并回到起点
到达终点 G 的时候游戏结束
设定 reward 的衰减因⼦ γ
当前时刻 t,可获得的收益预期总计:G  = R  + γR  + γR  + … = γ 取 0 代表⽬光短浅
γ 取 1 代表⽬光过于长远
我们选择⼀条路⾛完以后,就可以知道这条路径上每⼀个状态路径的价值
所以多次尝试以后,就可以做出更优的选择
⽽不断地尝试,即在更新 Q 值表格,由这个表格指导每⼀步动作
所以这个表格的维度是 (状态总数,每个状态下的动作总数),初始化的时候都为 0
Agent 和环境的交互,就是不断更新 Q 表格
三、强化学习更新 Q 表格
核⼼:⽤下⼀个状态的 Q 值来更新当前状态的 Q 值
这⾥利⽤到了统计⾥⾯的 Bootstrapping (⾃举)算法glimp
强化学习中叫做:时序差分更新⽅法
我的理解是:
由于每⼀次都⽤下⼀个状态来更新这⼀个状态,于是最后的累积 reward 会向前传递,最终影响整个路径
类似于多重条件反射(反射链条)
例⼦:斯坦福的状态价值迭代⼩游戏
可以看到游戏中,⼩球不断试错,最后产⽣价值判断,终点的 +1 reward 会不断影响周边的格⼦
然后这个影响⼒会往起点延伸,最终形成⼀条最优路径cri中国国际广播电台
3.1 Temporal Difference 时序差分(TD 单步更新)
公式:
t t+1t+22t+3γR ∑k =0∞k t +k +1
Q (S ,A ) ← t t Q (S ,A ) + t t α[R  + t +1γQ (S ,A ) + t +1t +1Q (S ,A )]
t t
当前值:⽬标值:我们希望 “当前值” 可以不断逼近 “⽬标值”⽬标值:即未来收益只和(reward) 就近似等于 软更新:通过参数 α 来控制每次更新的幅度(可以理解为学习速率 learning rate)α 为 0,则表⽰不更新
α 为 1,则表⽰完全更新
所以这个更新公式,⽤到的是:
当前时刻的 S ,A ,下⼀时刻的 R ,S ,A (与环境交互后产⽣)
folder这就组成了 Sarsa 算法
3.2 与环境交互
1. 根据Q表选动作(agent)预测/评估:sample()
执⾏动作(带有探索概率):sample()
2. 与环境交互(enviroment)获得 State 和 Reward
获得下⼀步的动作预测和决策
3. 更新 Q 表(agent)
学习:learn()
四、相关⽅法和策略
4.1 Epsilon Greedy ⽅法
权衡探索和利⽤之间的概率:
Q (S ,A )
英语语音学
t t R  + t +1γQ (S ,A )
t +1t +1Target  = G  = t R  + t +1γR  + t +2γR  = 2t +3γR ∑k =0∞
k t +k +1
G  t = R  + γR  + γR  + γR t +1t +22t +33t +4
禁止吸烟的英文= R  + γ(R  + γR  + γR )
t +1t +2t +32t +4= R  + γG t +1t +1Q (S ,A )t +1t +1G t +1
α[R  + t +1γQ (S ,A ) + t +1t +1Q (S ,A )]
t t t t t t+1t+1
利⽤ Exploitation:最优选(概率 ε)
探索 Exploration:随机选(概率 1-ε)professional什么意思
1. 假设 ε 设置为 0.1
2. 在当前状态下,选择最优的选择提取出来
3. 然后 90% 在最优选择中随机选⼀个动作
4. 10% 在所有选择中随机选⼀个动作
如果没有探索,那我们⽆法找到⽐当前最优 更优 的选择
在 Sarsa 算法中,由于在动作选择上⼀定存在 “探索” 的可能性,所以最终优化的路径是⼀条保守的路径,⽽不是最优的路径!
4.2 On-Policy 和 Off-Policy 策略
On-Policy:⽤于优化的,是实际会被执⾏的策略
⽐如 Sarsa
英语广播电台在学习过程中,只存在⼀种策略
这种策略⽤作 Action 的选取
这种策略也⽤作优化(更新 Q 表)
先采样下⼀步,再更新 Q 表sneaky
由于需要兼顾探索,所以策略 π 并不稳定
Off-Policy:⽤于优化的,
⽐如 Q-Learning
保留两种策略
⾏为策略(μ):Behavior Policy,⽤于⼤胆地探索环境,执⾏动作,获取经验
⽬标策略(π):Target Policy,使⽤ 最优策略 来进⾏优化(更新Q表),但是这个策略不⼀定被执⾏
先更新 Q 表,再采样下⼀步

本文发布于:2023-06-15 06:23:47,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/145615.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:状态   环境   学习   动作   概率   收益   选择   强化
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图