亚达陆龟强化学习笔记之Critic (三)
前⾯介绍了Actor的策略,接下来介绍Critic。
1. 什么是critic
梁平旅游
critic就是⼀个神经⽹络,以状态s为输⼊,以期望的reward为输出。
1.1 Actor 和Critic 的区别Actor是以s为输⼊,输出对应的action和其概率。
Criti则是以s为输⼊,输出对应的reward期望值。
1.2 为什么要有critic
在前⾯介绍Actor时,我们定义的⽤来更新θ的
这其中是machine与环境互动所获得的实际reward,这就导致具有很⼤的不确定性。因为machine采取什么样的动作是⼀种概率性的⾏为,⽽同⼀个动作,环境给予什么样的reward也是具有随机性的,这样将会导致machine的学习效率⽐较低下,就像没头苍蝇乱撞,可能学习很久都找不到正确的⽅向。所以我们要给machine⼀个正确的⽅向,即使⽤它的期望值代替实际的reward,期望值是可以被估算、计算
的,这样就有利于我们去设计特定的函数来估算、计算期望的reward,从⽽引导我们的machine去做出我们想要的action。
1.3 critic 和Q-Learning 的区别
一剪梅蒋捷critic是只计算期望的reward,并不会根据这个reward选择action,⽽Q-Learning则会根据估算出来的reward选择最⼤的那个reward对应的action。
闪光皮皮
1.4 value-bad 和policy-bad 的区别
value-bad是根据计算出来的期望reward,选择最⼤的期望reward所对应的action。典型代表Q-Learning。
喜提新车祝福语policy-bad是将计算出来的期望reward当作选择action的概率,期望的reward越⼤,对应的action被选中的概率也就越⼤,但不⼀定就会被选中,只是概率。典型代表Policy Gradient。
2. 如何获得Critic
⾮常简单,直接使⽤⼀个神经⽹络,以状态s为输⼊,value为输出即可。
3. critic 怎么和actor 结合交通安全教育总结
关于朋友的故事
▽=R ˉθR (τ)▽p (τ)
τ∑θR (τ)
R(τ)
使⽤critic输出的value代替,具体公式如下图,这就是A2C策略。
尤克里里曲子