Dec-POMDP模型在多智能体合作任务中的应用

更新时间:2023-07-13 22:12:37 阅读：评论：0

2020年第08期

143

1 智慧城市信息系统的五大关键技术

计算机的出现对当今社会产生了巨大影响，硬件和软件的日益成熟为部署大量设备或系统来解决现实世界中的问题提供了可能性。这些系统中的个体（如计算机、路由器、机器人等）都可以看成一个智能体，它可以接收信息并做出有关如何在环境中行动的决定。随着这些智能体数量和复杂度的增加，考虑控制它们的方式以及它们彼此之间的合作变得至关重要[1]

泰州会计培训

。

分散式部分可观察马尔可夫决策过程（Dec-POMDP）是对马尔可夫决策过程（MDP）和部分可观察马尔可夫决策过程（POMDP）模型的推广，这些模型先是在控制理论界中开发，尤其是最优控制，本质上处理的是相同类型的计划问题，但重点是连续状态和动作空间。后来这些模型在人工智能领域中作为规划智能体的框架而流行。

rumour

在多智能体系统（MAS）中，由于环境是不可预测的，并且有关环境和其他智能体的可用信息变得嘈杂且不完善，使得合作更加困难。在这些复杂的领域中，人工开发智能体控制器变得非常困难，因此需要一种自动方法来根据领域规范生成解决方案。Dec-POMDP 可用于一组合作任务的决策问题，其解决方案在考虑与环境和其他智能体相关的不确定性的同时，还优化了智能体的行为，因此，Dec-POMDP 在MAS 的合作任务中具有广泛的应用前景。

Dec-POMDP 模型在多智能体合作任务中的应用

王阳，杜若萌

北京物资学院，北京 101149

摘要：在复杂的多智能体合作任务中，智能体周围的环境和信息往往都具有不确定性，从而为合作任务带来了巨大的挑战。由于人工开发智能体控制器很困难，因此需要一种自动方法来根据领域规范生成解决方案。Dec-POMDP 模型作为人工智能领域中规划多个智能体的有效框架，其解决方案在考虑环境和其他智能体相关的不确定性的同时，还优化了智能体的行为，因此，Dec-POMDP 在多智能体系统的合作任务中具有广泛的应用前景。关键词：Dec-POMDP 模型；多智能体合作任务；人工智能中图分类号：TP18

2 人工智能的相关模型

girls and dogs欧美

2.1 MDP 模型

当人们面对一个决策时，须选择许多不同的行为，选择最佳行动需要考虑的不仅仅是行动的即时效果，更要考虑长期效果。此时便需要在即时效果和长期效果之间进行正确的权衡，进而产生最佳的解决方案。由于未来存在不确定性，因此将来某些行动的结果并不完全可预测。MDP 是对此类问题建模的一种方法，它可以在不确定的环境中自动执行决策过程。MDP 做出的假设是：下一个状态仅由当前状态（动作）确定，这称为马尔可夫假设。MDP 的解决方案称为策略，它仅指定针对每个状态采取的最佳措施。尽管遵循的是政策，但实际上是计算一个价值函数。值函数类似于策略，不同之处在于它为每个状态指定一个数值，而不是为每个状态指定一个动作。

2.2 POMDP 模型

基于MDP 的解决方案过程为每个状态提供值或策略，其要求使用的状态具有完全可观察性。而当状态为部分可观察时，则不再有关于当前状态的确定性，此时的模型被称为部分可观察马尔可夫决策过程（POMDP）。POMDP 中的状态是一组观察结果，其提供了有关处于何种状态的提示，此外还需要指定一个观察函数来为模型中每种观察状态分配不同

作者简介：王阳（1994—），女，回族，河北廊坊人，硕士，研究方向为物联网信息处理与应用；杜若萌（1995—），女，汉族，河北廊坊人，硕士，研究方向为物联网信息处理与应用。

2020年第08期

144的概率。在POMDP 中，需要找到从状态到动作的映射，我们将状态的概率分布称为置信状态，并将整个概率空间（所有可能的概率分布的集合）称为置信空间。此外，因为置信状态是概率分布，所以所有概率的总和必须为1。

2.3 Dec-POMDP 模型

MDP 和POMDP 都是用来对单个智能体决策问题进行建模的，而对于多个智能体决策问题，我们通常采用Dec-POMDP 模型对问题进行建模。Dec-POMDP 通过考虑联合行动和观察来扩展POMDP 模型。在Dec-POMDP 中，智能体只知道它们自己的行为，而没有观察到彼此的行为。由于智能体在此模型中只能访问其单独的操作和观察结果，因此需要根据联合行动和观察来维护和更新置信状态，即需要找到一组联合政策来使预期的累积奖励最大化[2]

。

3 Dec-POMDP 模型在MAS 中的应用实例

多智能体系统（MAS）自20世纪70年代被提出以来，就在智能机器人、交通控制等各个领域得到了广泛应用，目前已经成为一种对复杂系统进行分析与模拟的工具。MAS 主要具有以下特点：（1）自主性。在MAS 中，每个智能体都能管理自身的行为并做到自主的合作或竞争。（2）容错性。智能体可以共同形成合作的系统用于完成独立或者共同的目标，不会因为某个智能体的故障而导致整个系统瘫痪。（3）灵活性和可扩展性。MAS 采用分布式设计，智能体具有高内聚低耦合的特性，使得系统表现出极强的可扩展性。多智能体任务分为合作、竞争以及混合任务，其中合作任务是通过多个智能体之间的协商通信方式来共同完成任务，从而得到全局最优目标。智能体之间的协商机制可以通过通信学习方式或协作学习方式来实现，这两种方式的区别在于第一种存在显示的通信协议，而第二种不存在[3]

。

在很多实际应用场景中，多智能体之间的合作任务往往是分散式的，即各个智能体对周围环境的感知是局部的，这种局部可观察的状态导致了很多不确定性。而Dec-POMDP 为多智能体合作任务提供了概率框架，它可以对结果、环境信息和通信方面的不确定性问题进行建模。

多机器人系统是MAS 中非常受欢迎的应用领域之一，由于多机器人系统拥有广泛的实际应用场景，

因此多机器人之间的合作协商问题也是目前的研究热点。当我们不考虑机器人的具体结构时，可以将

机器人看作智能体，此时多机器人合作任务便可以看作多智能体合作任务。回收机器人是多机器人合作任务中的一个典型应用实例，它是由一组负责从办公楼中清除垃圾的机器人构成，它们的任务就是寻找带有传感器标记的垃圾桶并携带一个或多个到达指定地点。由于不确定垃圾桶的具体位置以及不确定它们什么时候会装满，此外还需要保证每个机器人在其没电之前移至充电站来充电，因此我们用Dec-POMDP 建模后，可以找到一个计划或政策，为每个机器人指定如何根据自己的观察结果而采取行动，从而使联合行动达到最佳状态。Dec-POMDP 基本上对解决所有体现智能体团队的问题都至关重要，在理论和模拟中都考虑了此类问题设置的示例，例如多机器人太空探索[4]、多机器人目标搜索[5]、多机器人足球[6]等。

Dec-POMDP 除了在多机器人系统领域中具有广泛的应用场景，在其他领域也有很好的应用场景，例如通信网络中的传输协议和路由。由于每台路由仅具有诸如其队列中的数据包数量或其自身的数据包的等待时间之类的信息，所以每台路由都必须基于其自身的信息进行决策。最初，Bernsteinetal 等人

[7]

在Dec-POMDP 上建模了一个简单的两智能体网络

colors示例，后来Winstein 等人[8]在模拟中研究了更现实的拥塞控制问题。此外，Dec-POMDP 在传感器网络的应用领域也备受关注，当假设在传感器节点之间添加广泛的通信基础结构不可行时，这些问题就

变得分散了。另外，它们打算监视的系统很少是确定的，这意味着这些领域都可以通过Dec-POMDP 来解决。绒布英文

4 结语

本文首先介绍了Dec-POMDP 的由来及其特征，其次对多MAS 以及多智能体合作任务进行了简单的介绍，并指出多智能体合作任务中存在的难题，最后基于Dec-POMDP 与多智能体合作任务问题的吻合，介绍了一些Dec-POMDP 在多智能体合作任务中的实际应用领域。由于Dec-POMDP 的状态是局部可观察的，它是非马尔可夫性质的，进而在求解此模型的时候存在着很大的困难和挑战，如置信状态等问题。因此，对于Dec-POMDP 的应用还有很大的探索空间，值得研究人员进一步深入研究。

2020年第08期

145

参考文献气体用英语怎么说

［1］Panait , S. Luke. Cooperative multi-agent learning: The state

of the art[J]. Journal of Autonomous Agents and Multi-Agent Systems, 2005, 11(3): 387–434.

［2］T. J. Spaan , N. Vlassis. Perus. Randomized point-bad value iteration for POMDPs[J]. Journal of Artificial Intelligence Rearch, 2005, 24: 195-220.

［3］A. Oliehoek, M. T. J. Spaan, et al. Incremental clustering

and expansion for faster optimal planning in decentralized POMDPs[J]. Journal of Artificial Intelligence Rearch, 2013, 46: 449–509.

［4］Becker, S. Zilberstein et al. Solving transition independent

decentralized markov decision process[J]. Journal of

Artificial Intelligence Rearch, 2004, 22: 423–455.

［5］M Smyrnakis , S M Veres. Coordination of control in robot

teams using game-theoretic learning[J]. IFAC Proceedings Volumes, 2014, 47(3): 1194-1202.

［6］Yasmina Bestaoui Sebbane. Multi Aerial Robot Planning[J].

Planning and Decision Making for Aerial Robots, 2014, 71: 317-395.

［7］Youngwook Kim , Kee-Eung Kim. Point-Bad Bounded

Policy Iteration for Decentralized POMDPs[J]. PRICAI 2010: Trends in Artificial Intelligence, 2010, 6230: 614-619.

［8］Winstein et al. TCP ex machina: Computer-generated

c o n g e s t i o n c o n t r o l [J ]. AC M S I G C O M M C o m p u t e r Communication Review, 2013, 43(4):123–134.

（上接第95页）

音质，提升声音的纯净度。

最大声压级测试是音响播放粉红噪声信号，然后使用声压计AWA5661测量1 m 处的声压输出。音响最大声压值达到了87 dB，可以完全满足日常生活的要求，声音洪亮饱满，人声还原度高，商家用于收款时也可以很容易地听到具体内容，满足了客户的需要。

主观感受音响声音很大，同时中频部分清晰度尚可，饱满度良好，人声突出。但人声的解析力有限，声音的质感、音乐的层次稍差，伴奏乐器的高频、低频部分没有得到很完整的表达。

6 结语

七年级英语教学论文

本文优化了传统音响的硬件电路设计，传统音响使用耳机信号作为音频PA 的单端输入，干扰能力弱，而本文所述方案使用听筒信号作为音频PA 的差分输入，在保证音质和音量的前提下，抗干扰能力得到加强。通过前期的项目预研，到驱动代码调试，原

理图、PCB 设计，再到音箱结构设计、性能指标调试。整个过程均由笔者主导完成，锻炼了动手调试的能力，积累了关于音响设计的经验。在设计及调试中也遇到了比较棘手的问题，比如音箱结构泄露、平台音效不起作用等问题，最终通过查看技术手册、算法参数配置指南，反复尝试与验证使问题得以解决。

如今智能音响、AI 语音智能等技术的发展非常迅速，生源定位、波束成型等算法更新也非常快。本文重在讲述应用设计，简单的平台输入搭建、硬件和结构设计，对于算法端的研究还不够深入，笔者仍需要抱着积极的心态去深入学习，弥补自身的不足。

参考文献

［1］余永宝，叶敦范，杨金峰.基于ARM 的车载音响设计与研究［J ］.

日语论坛

王长喜电子设计应用，2007（11）:104-105.［2］包健.基于安卓系统的智能蓝牙音箱设计研究［D ］.昆明：昆

明理工大学，2014.［3］丽梅，刘伟.音响技术及应用［M ］.北京：机械工业出版社，

2015.

主持人培训课程

本文发布于:2023-07-13 22:12:37，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/176520.html

上一篇：数字身份 did 标准

下一篇：Martin Jacques：了解中国的崛起Understanding the Ri of China(中英对照)

标签：智能合作任务状态机器人

留言与评论（共有 0 条评论）