强化学习笔记2:序列决策(SequentialDecisionMaking)过
baebae
程
1
强化学习研究的问题是 agent 跟环境交互,上图左边画的是⼀个 agent,agent ⼀直在跟环境进⾏交互。
这个 agent 把它输出的动作给环境,环境取得这个动作过后,会进⾏到下⼀步,然后会把下⼀步的观测跟它上⼀步是否得到奖励返还给 agent。
通过这样的交互过程会产⽣很多观测,agent 的⽬的是从这些观测之中学到能极⼤化奖励的策略。
xpeke
经络堵塞
2
奖励是由环境给的⼀个标量反馈信号(scalar feedback signal),这个信号显⽰了 agent 在某⼀步采取了某个策略的表现如何。
强化学习的⽬的就是为了最⼤化 agent 可以获得的奖励,agent 在这个环境⾥⾯存在的⽬的就是为了极⼤化它的期望的累积奖
励(expected cumulative reward)。
3
在⼀个强化学习环境⾥⾯,agent 的⽬的就是选取⼀系列的动作来极⼤化它的奖励,所以这些采取的动作必须有长期的影响。
但在这个过程⾥⾯,它的奖励其实是被延迟了,就是说你现在采取的某⼀步决策可能要等到时间很久过后才知道这⼀步到底产⽣了什么样的影响。
这⾥⼀个⽰意图,就是我们玩这个 Atari 的 Pong 游戏,你可能只有到最后游戏结束过后,才知道这个球到底有没有击打过去。中间你采取的 up 或 down ⾏为,并不会直接产⽣奖励。
强化学习⾥⾯⼀个重要的课题就是近期奖励和远期奖励的⼀个权衡(trade-off)。怎么让 agent 取得更多的长期奖励是强化学习的问题。
在跟环境的交互过程中,agent 会获得很多观测。在每⼀个观测会采取⼀个动作,它也会得到⼀个奖励。所以历史是观测(obrvation)、⾏为(action)、奖励(reward)的序列:
Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,所以你可以把整个游戏的状态看成关于这个历史的函数:
3.1 状态和观测的区别
状态(state) s 是对世界的完整描述,不会隐藏世界的信息。
垃圾怎么画
观测(obrvation) o是对状态的部分描述,可能会遗漏⼀些信息。
3.1.1完全可观测
举个例⼦,围棋就是完全可观测
观测到的东西,就是环境的状态,同时也是agent的状态
3.1.2 部分可观测
但是有⼀种情况是 ,agent 得到的观测并不能包含环境运作的所有状态(⽐如打牌,打⿇将,我们只知道⾃⼰的牌型,不知道别⼈的),因为在这个强化学习的设定⾥⾯,环境environment的状态才是真正的所有状态。
老子的故事⽐如 agent 在玩这个 black jack 这个游戏,它能看到的其实是牌⾯上的牌。
或者在玩雅达利游戏的时候,观测到的只是当前电视上⾯这⼀帧的信息,你并没有得到游戏内部⾥⾯所有的运作状态。
也就是说此时 agent 只能看到部分的观测,我们就称这个环境是部分可观测的(partially obrved)。在这种情况下⾯,强化学习通常被建模成⼀个 POMDP (部分可观测马尔可夫决策过程)的问题。
3.1.3 部分可观测马尔科夫问题
部分可观测马尔可夫决策过程(Partially Obrvable Markov Decision Process, POMDP)是⼀个马尔可夫决策过程的泛化。
POMDP 依然具有马尔可夫性质,但是假设智能体⽆法感知环境的状态 s,只能知道部分观测值 。⽐如在⾃动驾驶中,智能体只能感知传感器采集的有限的环境信息。
4 决策空间
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(action space)。
像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces),在这个动作空间⾥,agent 的动作数量是有限的。
苹果手机美版和国行的区别
在其他环境,⽐如在物理世界中控制⼀个 agent,在这个环境中就有连续动作空间(continuous action spaces) 。在连续空间中,动作是实值的向量。
例如:
⾛迷宫机器⼈如果只有东南西北这 4 种移动⽅式,则其为离散动作空间;一心一意的反义词
如果机器⼈向 中的任意⾓度都可以移动,则为连续动作空间。
有助于排便的方法