强化学习论⽂精读1:Rewardinough
1. ⽂章信息
《Reward is enough》 这是Deepmind发表在计算机期刊《Artificial Intelligence》上的⼀篇⽂章。
期刊信息:
2. 摘要
这篇⽂章,作者假设智⼒及其相关能⼒能够被认为是为了奖励的最⼤化。因此,奖励⾜够驱动表现出⾃然和⼈⼯智能所研究的能⼒的⾏为,包括知识,学习,感知,社会智能,语⾔,概况,和模仿。这与基于其他信号或⽬标的每种能⼒都需要专门的问题表述的观点形成鲜明的对⽐。此外,作者建议通过试错经验来最⼤化奖励的智能体能够学习到表现出绝⼤多数甚⾄所有的这些能⼒的⾏为。因此强⼤的强化学习智能体可以后成⼈⼯通⽤智能体的解决⽅案。
3. 动机
奖励最⼤化作为通⽤⽬标⾜以驱动表现出⾃然和⼈⼯智能中所研究的⼤多数(如果不是全部)能⼒的⾏为。
不同形式的智⼒可能来⾃不同环境的奖励信号的最⼤化。⼈⼯智能体可能被要求在未来的环境中最⼤化各种奖励信号,从⽽产⽣新形式的智能。即使是⼀个单⼀的动物或⼈类的智⼒与⼤量的能⼒有关。这种奖励最⼤化的⾏为与经常与追求每种相关的单独⽬标所产⽣的具体⾏为相⼀致。
为什么这种单⼀的最⼤化奖励的能⼒会产⽣?为⼀个单⼀的⽬标服务⽽实施能⼒,⽽不是为他们⾃⼰的专门⽬标服务
4. 模型
4.1. 知识和学习
该研究将知识定义为智能体内部信息,如智能体包括⽤于选择动作、预测累计奖励或预测未来观测特征的函数的参数中。⼀些知识为先验知识,⼀些为通过学习获得知识。奖励最⼤化的智能体所在的环境包括先验知识,但先验知识在理论上和实践上有限,所以也包括学习的知识。在更丰富和寿命更长的环境下,智能体对知识的平衡越来越倾向于学习知识。
4.2. 感知
⼈们需要各种感知能⼒来积累奖励,如图像分割避免掉下悬崖,物体识别区分是否有毒,脸部识别友⽅敌⽅等。包括视觉,听觉,躯体感觉和本体感觉。⽬前将该问题统⼀为通过监督学习问题。从奖励最⼤化⽽不是监督学习的⾓度来考虑感知,最终可能会⽀持更多的感知⾏为,包括具有挑战性和现实形式的感知能⼒:
⾏动和观察:通常交织在多种的感知形式中,如触觉感知,视觉移位等
感知:感知的效⽤通常取决于智能体的⾏为
什么是口才信息:获取信息需要的隐式或者显式成本
数据:数据的分布与环境相关
大寒日应⽤:许多感知的应⽤并不能获得标记的数据
社会智能是⼀种能够理解其他智能体以及能够与其有效互动的能⼒。这种理论通常能被博弈论等正式化,作为多智能体博弈的均衡解。在该研究的最⼤化奖励值假设中,社会智能被理解为 在其他智能体的环境下,从某⼀个智能体的⾓度,最⼤化积累的奖励。按照这种标准的智能体-环境的协议,⼀个智能体可以观测到其他智能体的⾏为,和能够通过动作影响其他智能体。⼀个智能体能够影响其他智能体的⾏为通常能够获得最⼤的积累奖励。因此,如果⼀个环境需要社会智能(例如,因为它包含动物
或⼈类),奖励最⼤化将产⽣社会智能。事实上,奖励最⼤化可能会产⽣⽐均衡更好的解决⽅案。这是因为它可以利⽤其他代理⼈的次优⾏为,⽽不是假设最佳或最坏情况下的⾏为。此外,奖励最⼤化有⼀个唯⼀的最优值,⽽在⼀般和博弈中,均衡值是不唯⼀的。
郑伊健版4.4. 语⾔
语⾔⼀直是⾃然智能和⼈⼯智能的⼀个重要研究课题。由于语⾔在⼈类⽂化和互动中起着主导作⽤,智能本⾝的定义往往是以理解和使⽤语⾔的能⼒为前提的,特别是⾃然语⾔。
然⽽,语⾔建模本⾝可能不能产⽣与智能相关的更⼴泛的语⾔能⼒,包括以下内容:
语⾔与其他动作和观测值的模型交织在⼀起。
语⾔是有结果的和有⽬的的
语⾔的效⽤是根据智能体的情况和⾏为⽽变化
语⾔处理复杂环境下意外事件的潜在⽤途可能超过任何语料库的能⼒红烧羊排怎么做好吃又简单>俄罗斯旅行
根据奖励最⼤化的假设,语⾔能⼒的全部丰富性,包括所有这些更⼴泛的能⼒,产⽣于对奖励的追求。
这个过程是⼀个智能体根据复杂的观察序列(如接收句⼦)产⽣复杂的⾏动序列(如说出句⼦),以影响环境中的其他智能体(参照上⽂对社会智能的讨论)并积累更⼤的奖励的能⼒。
4.5. 泛化
泛化能⼒通常被定义成将⼀个问题的解决⽅案转移到另⼀个解决⽅案的能⼒。在该研究的最⼤化奖励假设中,泛化能⼒被理解为:在⼀个智能体和单⼀复杂的环境之间的重复互动中最⼤化积累奖励。丰富的环境要求智能体有能够泛化获取状态到未来状态的能⼒。
4.6. 模仿
模仿是⼈类与动物智能相关的重要能⼒,能促进其他能⼒的快速获得。在⼈⼯智能中,模仿通常被表述为通过⾏为克隆从演⽰中学习的问题,其⽬标是在提供有关教师的⾏动、观察和奖励的明确数据时,再现教师所选择的⾏动。与通过⾏为克隆的直接模仿相⽐,在复杂环境中可能需要更⼴泛和现实的观察学习能⼒,包括:
其他智能体可能是当前智能体环境的⼀部分,⽽⽆需假设存在包含教师数据的特殊数据集;
智能体学习⾃⼰的状态和其他智能体的状态之间的关联;或者⾃⼰的动作和其他智能体的观测值之间的关联;或者更⾼层次上抽象层次上的
其他智能体可能被部分观测,因此他们的动作和⽬标可能被不完全地及时的推断出;
其他智能体可能展现出来的应该避免的不良⾏为
环境中可能有许多其他智能体,表现出不同的技能或不同的能⼒⽔平
观察性学习甚⾄可能在没有任何明确智能体的情况下发⽣
该研究推测,更⼴泛的观察学习能⼒是由最⼤化奖励推动的。从单个智能体来看,只能观测到其他智能体作为环境的组成部分,可能会产⽣很多与⾏为克隆相似的优点.
⼈类,也许还有其他动物所拥有的那种通⽤智能,可以被定义为在不同环境下灵活地实现各种⽬标的能⼒。通⽤智能有时会被⼀套环境正式化,这套环境可以衡量智能体在各种不同⽬标和背景下的能⼒。根据该研究的最⼤化奖励假设,通⽤智能被理解为在⼀个单⼀的复杂的环境下最⼤化⼀个单⼀的奖励来实现。动物的经验流⾜够丰富多样,它可能需要灵活的能⼒来实现各样的⼦⽬标(例如觅⾷、战⽃、逃跑等),以便成功地最⼤化其整体奖励(例如饥饿或繁殖)。类似地,如果⼈⼯智能体的经验流⾜够丰富,那么单⼀⽬标(例如电池寿命或⽣存)可能隐含地需要实现同样⼴泛的⼦⽬标的能⼒,因此奖励最⼤化应该⾜以产⽣⼀种通⽤⼈⼯智能。
强化学习智能体
该研究的主要假设,及智⼒及其相关能⼒可被理解为服务于奖励的最⼤化,对智能体的性质是不可知的。如何构建⼀个智能体能最⼤化奖励是⼀个重要的问题。通过构建强化学习智能体来最⼤化奖励。强化学习的智能体能够在学习的过程中获得表现出感知、语⾔、社会智能等⾏为,以便能够在⼀个环境中能最⼤化奖励。在这个环境中,这些能⼒具有持续的价值。
5.讨论
5.1. 哪种环境?
⼈们可能会问,通过奖励最⼤化,哪个环境会产⽣ "最聪明的 "⾏为或 "最好的 "具体能⼒(例如⾃然语⾔)。智能体在遇到具体的环境经验能塑造其随后的能⼒。如 在⼈⼀⽣中遇到的朋友、敌⼈、⽼师、玩具、⼯具、或图书馆。
5.2. 哪种奖励信号?
卖火柴的小女孩教学反思
操控奖励信号的原因是:只有精⼼构建的奖励才能产⽣通⽤的智能。该研究认为,奖励的信号是⼗分稳健的。这是因为环境⼗分复杂,以⾄于即使是⼀个看似⽆害的奖励信号也可能要求智⼒及其相关能⼒。如捡鹅卵⽯,每收集到⼀个奖励+1,为了有效地最⼤化这个奖励信号,智能体可能需要对卵⽯进⾏分类,操纵卵⽯,导航到卵⽯滩,储存卵⽯,了解海浪和潮汐及其对卵⽯分布的影响,说服⼈们帮
助收集卵⽯,使⽤⼯具和车辆来收集更多的卵⽯,采掘和塑造新的卵⽯,发现和建⽴收集卵⽯的新技术,或者建⽴⼀个收集卵⽯的公司。
5.3. 除了最⼤化奖励,还有什么能满⾜智能的要求?
在强化学习中,智能体的动作被优化以最⼤化奖励,这些动作反过来决定了从环境中收到的观察结果,⽽这些观察结果本⾝⼜为优化过程提供了信息;此外,优化是实时在线进⾏的,同时环境也在不断变化。
5.4. 什么是奖励最⼤化问题?
与其说是最⼤化⼀个由累积奖励定义的通⽤⽬标,不如说是为不同情况分别制定⽬标:例如多⽬标学习、风险敏感⽬标或由⼈在回路中指定的⽬标。
此外,与其说是解决⼀般环境下的奖励最⼤化问题,不如说是针对某⼀类特定的环境,如线性环境、确定性环境或稳定环境来研究特例问题。虽然这可能适合于特定的应⽤,但⼀个专门问题的解决⽅案通常并不具有普遍性;相反,对⼀般问题的解决⽅案也会为任何特殊情况提供解决⽅案。
强化学习问题也可以转化为⼀个概率框架,接近奖励最⼤化的⽬标[66,39,26,17]。最后,通⽤决策框架[21]为所有环境中的智能提供了⼀个理论上但不可计算的模拟;⽽强化学习问题则为特定环境中的
bestfriend智能提供了⼀个实际的表述。
5.5. 从⾜够⼤的数据集中进⾏离线学习,是否就能实现智能?
在复杂的环境下,离线学习不能很好的实现智能。离线学习可能只能够解决那些已经在很⼤程度上在可⽤数据中得到解决的问题。此外,解决智能体当前问题所需的数据在离线数据中出现的概率往往可以忽略不计。在线互动允许智能体专门处理它当前⾯临的问题,不断验证和纠正其知识中最紧迫的漏洞,并找到与数据集中的⾏为截然不同并取得更⼤奖励的新⾏为。
5.6.奖励信号是否过于贫乏?
快手炒菜⼀个有效的智能体可以利⽤额外的经验信号来促进未来奖励的最⼤化。现在的研究者更倾向引⼊假设或开发更简单的抽象,然⽽这些假设回避了⼀些关键性的问题,⽬前该组织正在努⼒研究。
6. 创新点
提出了⼀种假设,⼀个能够有效学习⼀种⽅式实现最⼤化奖励的智能体,当在⼀个更丰富的环境中会产⽣⼀种富有经验的通⽤智能的表达。通过从知识、学习、感知、社会智能、语⾔、概括、模仿和⼀般智能介绍,并发现奖励最⼤化可以为理解每种能⼒提供基础。最后,提出了⼀个猜想,即智⼒可以在实践中从⾜够强⼤的强化学习智能体中出现,这些之恩那个提可以学习最⼤化未来的奖励。如果这
个猜想是真的,它为理解和构建⼈⼯通⽤智能提供了⼀条直接的途径。
7. 个⼈总结
感觉本篇论⽂主要为科普性论⽂,从⼈⽂的⾓度出发分析为什么要最⼤化奖励。对于从事其他算法想利⽤强化学习算法解决的,可以看看。⼀直研究强化学习算法的,没有很⼤的必要研读