强化学习笔记之Critic(三)

更新时间:2023-06-02 18:50:37 阅读: 评论:0

亚达陆龟强化学习笔记之Critic (三)
前⾯介绍了Actor的策略,接下来介绍Critic。
1. 什么是critic
梁平旅游
critic就是⼀个神经⽹络,以状态s为输⼊,以期望的reward为输出。
1.1 Actor 和Critic 的区别Actor是以s为输⼊,输出对应的action和其概率。
Criti则是以s为输⼊,输出对应的reward期望值。
1.2 为什么要有critic
在前⾯介绍Actor时,我们定义的⽤来更新θ的
这其中是machine与环境互动所获得的实际reward,这就导致具有很⼤的不确定性。因为machine采取什么样的动作是⼀种概率性的⾏为,⽽同⼀个动作,环境给予什么样的reward也是具有随机性的,这样将会导致machine的学习效率⽐较低下,就像没头苍蝇乱撞,可能学习很久都找不到正确的⽅向。所以我们要给machine⼀个正确的⽅向,即使⽤它的期望值代替实际的reward,期望值是可以被估算、计算
的,这样就有利于我们去设计特定的函数来估算、计算期望的reward,从⽽引导我们的machine去做出我们想要的action。
1.3 critic 和Q-Learning 的区别
一剪梅蒋捷critic是只计算期望的reward,并不会根据这个reward选择action,⽽Q-Learning则会根据估算出来的reward选择最⼤的那个reward对应的action。
闪光皮皮
1.4 value-bad 和policy-bad 的区别
value-bad是根据计算出来的期望reward,选择最⼤的期望reward所对应的action。典型代表Q-Learning。
喜提新车祝福语policy-bad是将计算出来的期望reward当作选择action的概率,期望的reward越⼤,对应的action被选中的概率也就越⼤,但不⼀定就会被选中,只是概率。典型代表Policy Gradient。
2. 如何获得Critic
⾮常简单,直接使⽤⼀个神经⽹络,以状态s为输⼊,value为输出即可。
3. critic 怎么和actor 结合交通安全教育总结
关于朋友的故事
▽=R ˉθR (τ)▽p (τ)
τ∑θR (τ)
R(τ)
使⽤critic输出的value代替,具体公式如下图,这就是A2C策略。
尤克里里曲子

本文发布于:2023-06-02 18:50:37,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/836094.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   期望   概率   选择   估算   期望值   对应   动作
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图