DeepReinforcementLearning(深度强化学习分类)

更新时间:2023-06-02 19:08:19 阅读: 评论:0

《咏柳》古诗原文DeepReinforcementLearning(深度强化学习分类)
qq怎样群发消息强化学习分类
Policy-bad or value-bad
强化学习两⼤类,Policy-Bad(Policy Gradients) Value-Bad(Q-Learning)。Policy-Bad直接预测环境状态下应采取接人待物
Action,Value-Bad预测环境状态下所有Action期望价值(Q值),选择Q值最⾼Action执⾏。Value-Bad适合少量离散取值
家在何方Action,Policy-Bad适合Aciton种类多或连续取值Action环境。Policy Network、Value Network。
Policy Gradients⽅法训练策略⽹络。模型通过学习Action在Environment获得反馈,⽤梯度更新模型参数。训练过程,模型接触到好Action及⾼期价值,和差Action及低期望价值。通过样本学习,模型逐渐增加选择好Action概率,降低选择坏Action概率,完成策略学习。直接学习当前环境应该采取策略,如选择Actionc概率,或Action具体数值。策略⽹络是End-to-End(端对端)⽅法,直接产⽣最终策略。
根据环境状态和采取⾏动预测后续环境状态,利⽤信息训练强化学习模型,是Model-Bad RL。Model-
Free RL直接对策略或Action期望价值预测,计算效率⾼。复杂环境,主要⽤Model-Free RL,供给更多样本训练,弥补没有Model预测环境状态问题。
新年资料Policy-Bad
Actor:训练的是策略⽹络,输⼊state,输出采取每个策略的概率,通过梯度下降的⽅式进⾏训练,不断得提⾼reward⽐较⾼的⾏为出现的概率、
家庭成员英语单词outline抖音用户数据分析
parameter update
声威大震参数更新可以略过,稍微有点复杂,总的来说每个状态对应这⼀个reward ,和⼀个转移到这个状态的概率,在与环境interaction的时候,如果这个reward⽐较⼤,那么我们提⾼这个
发⽣的概率,否则减⼩他。
Value-bad(critic)
Critic:是⼀个评估者,预测环境状态下所有Action期望价值(Q值),选择Q值最⾼Action执⾏。
帅的⼈作为⼀个critic,起到评估actor的作⽤,⽽value function取决于两件事情,actor本⾝和⽬前的state。就图⽽⾔,当阿光⽐较弱的时候,⼤马步飞不是⼀步好棋(actor=弱,state=⼤马),但是当a
ctor变强之后,这⼀步却可能是好棋。
On-policy or off-policy
这个分类⽐较抽象,关键点在于⼀直在与环境交互的agent和你想要学的agent是不是同⼀个τR (τ)p τ

本文发布于:2023-06-02 19:08:19,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/836297.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:环境   学习   状态   预测
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图