RL稀疏奖励问题
稀疏奖励问题是指agent探索的过程中难以获得正奖励,导致学习缓慢甚⾄⽆法进⾏学习的问题,并且⼴泛存在于现实中,⽐如围棋,⼈们很难去设定中间每步的奖励,并且状态空间巨⼤,使⽤全局奖励会有奖励稀疏且滞后的问题。
对于稀疏奖励问题的资料⾸先推荐李宏毅⽼师关于稀疏奖励部分的讲解和国内这篇稀疏奖励综述。
我觉得⽬前的稀疏奖励算法可以从数据和模型⼊⼿,分别解决的问题主要有:
初中英语教研组总结数据⽅⾯——如何利⽤好已有数据,如何使⽤外部数据和信息;
模型⽅⾯——如何提⾼模型解决⼤状态空间⼤动作空间下复杂问题的能⼒。em的用法
1. 如何利⽤好已有数据
Curiosity Driven:好奇⼼驱动是使⽤内在奖励⿎励agent探索更陌⽣的状态,平衡探索与利⽤,本质上是提⾼了样本的利⽤效率,主要分为两类,分别是基于状态计数的和基于状态预测误差的⽅法,前者⽐如这两篇⽂章、,后者⽐如、ICM()。
ICM,增加⼀个ICM的reward,未来发⽣的事情越没有预测,则它的reward将会越⼤。feature-extractor可以将⽆关紧要的东西滤掉。
[外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-9ESK1d6Z-1600740595468)
grodd
(C:\Urs\liuyi\AppData\Roaming\Typora\typora-ur-images\image-20200922094813623.png)]
报考会计师的条件[外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-WonwqmkF-1600740595476)
(C:\Urs\liuyi\AppData\Roaming\Typora\typora-ur-images\image-20200922094929783.png)]
Priority Experience Replay:PER是DQN中最有效的改进⼿段之⼀,通过改变样本采样的概率来提⾼样本利⽤率和训练速度。中使⽤与td-error⼤⼩成正⽐的采样概率,在稀疏奖励中还可以对正样本采⽤更⾼的采样概率,防⽌在⼤量⽆奖励样本中“淹没”。
高中英语说课稿奖励重塑:分为探索阶段和奖励重塑阶段,探索阶段不接受啊经历信息,在状态空间探索并获得⼀个探索性的策略,执⾏策略得到数据集。然后在规划阶段,对于任意给定奖励函数,利⽤总数据及估计出的迁移函数,应⽤标准强化学习⽅法进⾏求解
2. 如何使⽤外部数据和信息
Reward Shaping:利⽤⼈⼯经验设计奖励函数,实际应⽤很多,有密集的奖励信息训练agent会⽐较快,但是要防⽌最优策略改变,吴恩达等证明了在满⾜奖励函数⼀定条件下能够保证最优策略不改变。当然⽬前也有⼀些⾃动设计奖励函数的⽅法,⽐如逆强化学习等。
通过设计出更加科学的额外奖励函数,可以提⾼模型的能⼒。
vitaminxImitation Learning:对专家策略进⾏学习,代表性的算法有Behaviour Clone、GAIL()。英文qq昵称
toner什么意思
Curriculum Learning:通过设置不同难度梯度的课程来加速学习,类似⼈类学习的过程,从简单的问题学习到的策略能够迁移到复杂的问题中。⽬前也有⼀些⾃动课程学习的研究
大学英语2课文翻译
3. 如何提⾼模型解决⼤状态空间⼤动作空间下复杂问题的能⼒
soclion)
3. 如何提⾼模型解决⼤状态空间⼤动作空间下复杂问题的能⼒
Hierarchical Reinforcement Learning:分层强化学习,使⽤多层次的结构来学习不同层次的策略,提⾼了解决复杂问题的能⼒。⽐较经典的⽐如 、、。