智能博弈综述:游戏AI对作战推演的启示

更新时间:2022-11-15 12:34:49 阅读: 评论:0


2022年11月15日发
(作者:门前)

第4卷第2期

2022年6月

智能科学与技术学报Vol.4No.2

ChineJournalofIntelligentScienceandTechnologyJune2022

智能博弈综述:游戏AI对作战推演的启示

孙宇祥1,彭益辉1,李斌1,周佳炜1,张鑫磊1,周献中1,2

(1.南京大学工程管理学院,江苏南京210093;

2.南京大学智能装备新技术研究中心,江苏南京210093)

摘要:智能博弈领域已逐渐成为当前AI研究的热点之一,游戏AI领域、智能兵棋领域都在近年取得了一系列

的研究突破。但是,游戏AI如何应用到实际的智能作战推演依然面临巨大的困难。综合分析智能博弈领域的国

内外整体研究进展,详细剖析智能作战推演的主要属性需求,并结合当前最新的强化学习发展概况进行阐述。从

智能博弈领域主流研究技术、相关智能决策技术、作战推演技术难点3个维度综合分析游戏AI发展为智能作战

推演的可行性,最后给出未来智能作战推演的发展建议。以期为智能博弈领域的研究人员介绍一个比较清晰的发

展现状并提供有价值的研究思路。

关键词:智能博弈;游戏AI;智能作战推演;智能兵棋;深度强化学习

中图分类号:E91

文献标志码:A

doi:10.11959/.2096−6652.202209

Overviewofintelligentgame:

enlightenmentofgameAItocombatdeduction

SUNYuxiang1,PENGYihui1,LIBin1,ZHOUJiawei1,ZHANGXinlei1,ZHOUXianzhong1,2

ofManagementandEngineering,NanjingUniversity,Nanjing210093,China

chCenterforNewTechnologyinIntelligentEquipmentNanjingUniversity,Nanjing210093,China

Abstract:Thefieldsofrearch

breakthroughshr,howtodevelop

gameAIandapplyittothrallprogressof

rearchinthefieldofintelligentgamesindomesticandoveraswereexplored,themainattributerequirementsofintel-

ligentcombatdeductionwastracked,and

feasibilityofdevelopinggameAIintointelligentcombatdeductionwerecomprehensivelyanalyzedfromthreedimen-

sions:mainstreamrearchtechnologyinthefieldofintelligentgame,relevantintelligentdecisiontechnologyandtech-

nicaldifficultiesofcombatdeduction,andfinally,somesuggestionsforthedevelopmentoffutureintelligentcombatde-

percanintroduceacleardevelopmentstatusandprovidevaluablerearchideasforre-

archersinthefieldofintelligentgame.

Keywords:intelligentgame,gameAI,intelligentcombatdeduction,intelligentwargame,deepreinforcementlearning

0引言

以2016年AlphaGo的成功研发为起点,对智

能博弈领域的研究获得突飞猛进的进展。2016年之

前,对兵棋推演的研究还主要集中在基于事件驱动、

规则驱动等比较固定的思路。到2016年,受AlphaGo

的启发,研究人员发现智能兵棋、智能作战推演的

实现并没有想象得那么遥远。随着机器学习技术的

收稿日期:2021–07–05;修回日期:2021–09–24

通信作者:周献中,**************

基金项目:国家自然科学基金资助项目(No.61876079)

FoundationItem:TheNationalNaturalScienceFoundationofChina(No.61876079)

·158·智能科学与技术学报第4卷

发展,很多玩家十分憧憬游戏中有AI加入从而改

善自己的游戏体验[1]。同时,在智能作战推演领域,

不断发展的机器学习游戏AI技术也为智能作战推

演的发展提供了可行思路[2]。传统作战推演AI主要

以基于规则的AI和分层状态机的AI决策为主,同

时以基于事件驱动的机制进行推演[3-4]。然而,随着

近些年国内外在各种棋类、策略类游戏领域取得新

突破,智能作战推演的发展迎来了新的机遇[5]。

国内游戏AI领域取得了标志性的进步。腾讯

《王者荣耀》的《觉悟AI》作为一款策略对抗游戏

取得了显著成绩,可以击败97%的玩家,并且多次

击败顶尖职业团队[6]。网易伏羲人工智能实验室在很

多游戏环境都进行了强化学习游戏AI的尝试[6],如

《潮人篮球》《逆水寒》《倩女幽魂》。超参数科技

(深圳)有限公司打造了游戏AI平台“Delta”,集

成机器学习、强化学习、大系统工程等技术,通过

将AI与游戏场景结合,提供人工智能解决方案[7]。

启元AI“星际指挥官”在与职业选手的对抗中也取

得了胜利[8]。北京字节跳动科技有限公司也收购了

上海沐瞳科技有限公司和北京深极智能科技有限

公司,准备在游戏AI领域发力。除了游戏AI领域,

国内在智能兵棋推演领域也发展迅速。国防大学兵

棋团队研制了战略、战役级兵棋系统,并分析了将

人工智能特别是深度学习技术运用在兵棋系统上

需要解决的问题[9]。中国科学院自动化研究所在

2017年首次推出《CASIA-先知1.0》兵棋推演人机

对抗AI[10],并在近期上线“庙算·智胜”即时策略

人机对抗平台[11]。此外,由中国指挥与控制学会和

北京华戍防务技术有限公司共同推出的专业级兵

棋《智戎·未来指挥官》在第三届、第四届全国兵

棋推演大赛中成为官方指定平台。中国电科认知与

智能技术重点实验室开发了MaCA智能博弈平台,

也成功以此平台为基础举办了相关智能博弈赛事。

南京大学、中国人民解放军陆军工程大学、中国电

子科技集团公司第五十二研究所等相关单位也开

发研制了具有自主知识产权的兵棋推演系统[12-15]。

2020年,国内举办了4次大型智能兵棋推演比赛,

这些比赛对于国内智能博弈推演的发展、作战推演

领域的推进具有积极影响。游戏AI和智能兵棋的

发展也逐渐获得了国内学者的关注,胡晓峰等人[5]

提出了从游戏博弈到作战指挥的决策差异,分析了

将现有主流人工智能技术应用到战争对抗过程中

的局限性。南京理工大学张振、李琛等人利用PPO、

A3C算法实现了简易环境下的智能兵棋推演,取得

了较好的智能性[16-17]。中国人民解放军陆军工程大

学程恺、张可等人利用知识驱动及遗传模糊算法等

提高了兵棋推演的智能性[18-19]。中国人民解放军海

军研究院和中国科学院自动化研究所分别设计和

开发了智能博弈对抗系统,对于国内智能兵棋推演

系统的开发具有重要参考价值[20]。中国人民解放军

国防科技大学刘忠教授团队利用深度强化学习技

术在《墨子•未来指挥官系统》中进行了一系列智能

博弈的研究,取得了突出的成果[21]。中国科学院大

学人工智能学院倪晚成团队提出一种基于深度神

经网络从复盘数据中学习战术机动策略模型的方

法,对于智能博弈中的态势认知研究具有重要参考

价值[22]。

总体来说,国内在智能博弈领域进行了一系列

的研究,尝试将该技术应用到作战推演领域,建立

了具有自主产权的博弈平台,技术层面也不断突

破,不再局限于传统的行为决策树、专家知识库等,

开始将强化学习技术、深度学习技术、遗传模糊算

法等引入智能博弈,取得了一系列的关键技术的突

破。但是,当前的研究主要聚焦在比较简单的智能

博弈环境,对复杂环境及不完全信息的博弈对抗研

究仍然需要进一步探索。

国外游戏AI领域则取得了一系列突出成果,

尤其是深度强化学习技术的不断发展,游戏AI开

始称霸各类型的游戏[23]。2015年DeepMind团队发

表了深度Q网络的文章,认为深度强化学习可以实

现人类水平的控制[24]。2017年,DeepMind团队根

据深度学习和策略搜索的方法推出了AlphaGo[25],

击败了围棋世界冠军李世石。此后,基于深度强化

学习的AlphaGoZero[26]在不需要人类经验的帮助

下,经过短时间的训练就击败了AlphaGo。2019年,

DeepMind团队基于多智能体(agent)深度强化学

习推出的AlphaStar[27]在《星际争霸II》游戏中达到

了人类大师级的水平,并且在《星际争霸II》的官

方排名中超越了99.8%的人类玩家。《Dota2》AI

“OpenAIFive”在电竞游戏中击败世界冠军[28],

Pluribus在6人无限制德州扑克中击败人类职业选

手[29]。同时DeepMind推出的MuZero在没有传授

棋类运行规则的情况下,通过自我观察掌握围棋、

国际象棋、将棋和雅达利(Atari)游戏[30]。与军事

推演直接相关的《CMANO》和《战争游戏:红龙》

(Wargame:RedDragon),同样也结合了最新的机

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·159·

器学习技术提升了其智能性[31]。美国兰德公司也对

兵棋推演的应用进行相关研究,利用兵棋推演假设分

析了俄罗斯和北大西洋公约组织之间的对抗结果,并

利用智能兵棋推演去发现新的战术[32]。兰德研究员

也提出将兵棋作为美国军事人员学习战术战法的

工具[33]。美国海军研究院尝试使用深度强化学习技术

开发能够在多种单元和地形类型的简单场景中学习

最佳行为的人工智能代理,并将其应用到军事训练及

军事演习[34-35]。

但就目前而言,国外的研究也遇到了瓶颈。虽

然也尝试将深度强化学习技术利用到作战领域,但

是就目前发表的论文和报告来看,国外学者、研究

人员将机器学习技术应用到作战推演AI中还有很

多问题需要解决,现阶段也是主要在游戏AI领域

及简单的作战场景进行实验验证及分析。作战推演

AI的设计也不仅仅是把机器学习技术照搬照用这

么简单。但是必须肯定的是,随着未来计算机硬件

的发展和机器学习技术的完善,作战推演AI会迎

来一波革命式的发展,给各类作战智能指挥决策带

来翻天覆地的变化。本文从智能博弈的重要应用领

域——作战推演分析了国内外整体背景,进而引出

作战推演的技术需求,并给出当前可参考的主流及

小众技术思路。同时,对可能出现的技术难点进行

了分析并给出解决方案建议。最后,对作战推演的

未来发展提出建议。

1智能作战推演主要属性需求

1.1状态空间

状态空间是作战推演中的每个作战实体的位

置坐标、所处环境、所处状态等要素的表现,是深

度强化学习进行训练的基础。在围棋中,状态空间

就是棋盘上每个点是否有棋子。在《觉悟AI》中,

状态空间是每一帧、每个单位可能有的状态,如生

命值、级别、金币[36-39]。在《墨子·未来指挥官系

统》中,状态空间主要是每个作战单元实体的状态

信息,是由想定中敌我双方所有的作战单元信息汇

聚形成的。本节尤其要明确状态空间和可观察空间

是可区分的,可观察空间主要是每个agent可以观

察到的状态信息,是整个状态空间的一部分。作战

推演中的状态空间将更加复杂,具有更多的作战单

位和单位状态。针对敌我双方的不同作战单位、不

同单位属性、不同环境属性等定义作战推演的状态

空间属性。例如敌我双方坦克单元应包括坐标、速

度、朝向、载弹量、攻击武器、规模等。陆战环境

应包括周围道路信息、城镇居民地、夺控点等。

1.2动作空间设计

动作空间是指在策略对抗游戏中玩家控制算

子或游戏单元可以进行的所有动作的集合。对于围

棋来说,动作空间为361个,是棋盘上所有可以落

子的点。对于《王者荣耀》和《Dota》这类游戏来

说,动作空间主要是玩家控制一个“英雄”进行的

一系列操作,玩家平均水平是每秒可以进行一个动

作,但是需要结合走位、释放技能、查看资源信息

等操作。例如《觉悟AI》的玩家有几十个动作选项,

包括24个方向的移动按钮和一些释放位置/方向的

技能按钮[34]。因此每局多人在线战术竞技

(multiplayeronlinebattlearena,MOBA)游戏的动作

空间可以达到1060000+。假设游戏时长为45min,每

秒30帧,共计81000帧,AI每4帧进行一次操作,

共计20250次操作,这是游戏长度。任何时刻每个“英

雄”可能的操作数是170000,但考虑到其中大部分

是不可执行的(例如使用一个尚处于冷却状态的技

能),平均的可执行动作数约为1000,即动作空间[37]。

因此,操作序列空间约等于100020250=1060750。而对

于《星际争霸》这类实时策略对抗游戏来说,因为需

要控制大量的作战单元和建筑单元,动作空间可以达

到1052000[38]。而对于《CMANO》和《墨子·未来指

挥官系统》这类更加贴近军事作战推演的游戏来说,

需要对每个作战单元进行大量精细的控制。在作战

推演中,每个作战单元实际都包括大量的具体执行

动作,以作战飞机为例,应包括飞行航向、飞行

高度、飞行速度、自动开火距离、导弹齐射数量

等。因此,实际作战推演需要考虑的动作空间可

以达到10100000+。可以看出,对于作战推演来说,

庞大的动作空间一直是游戏AI迈进实际作战推

演的门槛。现有的解决思路主要是考虑利用宏观

AI训练战略决策,根据战略决策构建一系列绑定

的宏函数,进行动作脚本设计。这样的好处是有

效降低了动作空间设计的复杂度,同时也方便高

效训练,但是实际问题是训练出来的AI总体缺乏

灵活性,过于僵化。

对于动作空间,还需要考虑其是离散的还是

连续的,Atari和围棋这类游戏动作都是离散动作

空间[25,39-40],《星际争霸》《CMANO》《墨子·未来

指挥官系统》这类游戏主要是连续动作空间[38]。对

于离散动作,可以考虑基于值函数的强化学习进行

·160·智能科学与技术学报第4卷

训练,而对于连续动作,可以考虑利用基于策略函

数的强化学习进行训练。同时,离散动作和连续动

作也可以互相转化。国内某兵棋推演平台由原先的

回合制改为时间连续推演,即把回合制转化为固定

的时间表达。同时对于连续动作,也可以在固定节

点提取对应的动作,然后将其转化为离散动作。

1.3决策空间构建

智能博弈中的决策主要是指博弈对抗过程中

的宏观战略的选择以及微观具体动作的选择。宏观

战略的选择在《墨子·未来指挥官系统》推演平台

中体现得比较明显。在推演比赛开始前,每个选手

要进行任务规划,这个任务规划是开始推演前的整

体战略部署,例如分配导弹打击目标,规划舰艇、

战斗机活动的大致区域,以及各个任务的开始执行

时间等。这一决策空间与想定中的作战单元数量、

任务规划数量相关。在制定完成宏观战略决策后,

推演阶段即自主执行所制定的宏观战略决策。同

时,在推演过程中也可以进行微观具体动作的干

预,这一阶段的具体动作和作战单元数量、作战单

元动作空间成正比。在实际作战推演中利用智能算

法进行智能决策,首先需要明确决策空间数量。在现

有的《墨子·未来指挥官系统》中,针对大型对抗想

定,计算机基本需要每秒进行数百个决策,一局想定

推演中双方博弈决策空间数量预估为1080+个,而对

于《星际争霸》《Dota2》和《王者荣耀》这类即时

战略(real-timestrategy,RTS)游戏,决策空间会

低一些。实际作战推演每小时的决策空间数量将高

于1050+个。对于这类智能决策的方案,现有RTS

游戏中提出的思路是利用分层强化学习的方法进

行解决,根据具体对抗态势进行宏观战略决策的选

择,然后根据不同的决策再分别执行对应的微观具

体动作,这样可以有效降低智能决策数量,明显提

高智能决策的执行效率。

1.4胜利条件设置

博弈对抗的胜利是一局游戏结束的标志。而不

同游戏中的胜利条件类型也不同,围棋、国际象棋

这些棋类博弈对抗过程中有清晰明确的获胜条件[30]。

而Atari这类游戏[40]只需要获得足够的分数即可获

得胜利。对于《王者荣耀》这类推塔游戏,不管过

程如何,只要最终攻破敌方水晶就可以获取胜利。

这些胜利条件使得基于深度强化学习技术的游戏

AI开发相对容易,在回报值设置中给予最终奖励更

高的回报值,总归能训练出较好的AI智能。然而

对于策略对抗游戏,甚至实际作战推演来说,获胜

条件更加复杂,目标更多。比如,有时可能需要考

虑在我方损失最低的情况下实现作战目标,而有时

则需要不计代价地快速实现作战目标,这些复杂多

元的获胜条件设置将使得强化学习的回报值设置

不能是简单地根据专家经验进行赋值,而需要根据

真实演习数据构建奖赏函数,通过逆强化学习技术

满足复杂多变的作战场景中不同阶段、不同目标的

作战要求。

1.5回报值设置

博弈对抗过程中最核心的环节是设置回报值,

合理有效的回报值可以保证高效地训练出高水平

AI。对于《星际争霸》《王者荣耀》等游戏,可以

按照固定的条件设置明确的回报值,例如将取得最

终胜利设置为固定的回报值。但是一局游戏的时间

有时较长,在整局对抗过程中,如果只有最终的回

报值将导致训练非常低效。这就是作战推演中遇到

的一个难题,即回报值稀疏问题。为了解决这个难

题,现有的解决方案都是在对抗过程中设置许多细

节条件,如获得回报值或损失回报值的具体行为。

比如在“庙算·智胜”平台中的博弈对抗,可以设

置坦克击毁对手、占领夺控点即可获得回报值,如

果被打击、失去夺控点等则会损失回报值,甚至为

了加快收敛防止算子长期不能达到有效地点,会在

每步(step)都损失微小的回报值。《觉悟AI》也同

样设置了详细的奖赏表[36],从资源、KDA(杀人率

(kill,K),死亡率(death,D),支援率(assista,

A))、打击、推进、输赢5个维度设置了非常详细

的具体动作回报值。这样就可以有效解决回报值稀

疏的问题。但是,对于复杂的作战推演来说,设计

回报函数可能还需要更多的细节。因为作战情况将

更加复杂多样,需要利用逆强化学习[41-42],通过以

往的作战数据反向构建奖赏函数。

1.6战争迷雾

战争迷雾主要是指在博弈对抗过程中存在信

息的不完全情况,我方并不了解未探索的区域实际

的态势信息。围棋、国际象棋这类博弈对抗游戏中

不存在这类问题。但是在《星际争霸》《Dota2》《王

者荣耀》以及《CMANO》等RTS游戏中设计了这

一机制。实际的作战推演过程中同样也存在此类问

题,但是情况更加复杂。在实际作战推演中,可以

考虑利用不完全信息博弈解决这个问题,已有学者

利用不完全信息博弈解决了德州扑克中的不完全

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·161·

信息问题[29],但是在实际作战推演中这一问题还需

要进一步探讨研究。

1.7观察信息

这里需要对智能博弈中的观察信息与游戏状

态空间进行区分,观察信息主要是指博弈的agent

在当前态势下可以获取的态势信息,是部分状态信

息。由于在智能博弈对抗过程中会产生战争迷雾问

题,因此需要在处理博弈信息时设置agent可以获

取到的信息。《星际争霸》中观察信息主要有两层

意思,一个层面是屏幕限制的区域更易于获取态势

信息,因为玩家更直观的注意力在屏幕局域,部分

注意力在小地图局域。为了更加符合实际,

AlphaStar也按照这种限制对《星际争霸》中的注意

力区域进行限制,从而更好地防止AI产生作弊行

为。而这也是部分《星际争霸》AI被人诟病的原因,

即没有限制机器的关注区域。另一个层面是对《星

际争霸》中作战单元可观察区域内的态势信息进行

获取,对于不能获取的态势信息则只能评估预测,

而这一部分则涉及对手建模部分,主要利用部分可

观察马尔可夫决策过程(partiallyobrvableMarkov

decisionprocess,POMDP)[43],这一技术明显难于

完全信息博弈。而对于围棋游戏来说,其中的态势

信息是完全可获取的,属于完全信息博弈,态势信

息即观察信息。并且围棋游戏属于回合制,相对于

即时策略游戏,其有更加充分的获取态势信息的时

间。因此,则可以利用蒙特卡洛树搜索(MonteCarlo

treearch,MCTS)算法对所获取的围棋游戏中的

观察信息进行详细分析,计算出所有可能的结果,

进而得出最佳的方案策略。《Dota2》中的观察信息

是指所控制的某个“英雄”所获取的态势信息,其

主要也是对主屏幕的态势信息和小地图的态势信

息进行结合处理。《王者荣耀》也与此类似,其主

要以小地图的宏观信息进行训练,然后以此为基础

为战略方案提供支持,如游戏中的“英雄”是去野

区发育还是去中路对抗。同时,对主屏幕态势信息

进行特征提取,结合强化学习训练,可以得出战术

层面的方案和建议,是去选择回塔防御还是进草丛

躲避,或者推塔进攻。墨子兵棋推演系统和

《CMANO》则更加接近真实作战推演,在作战信

息获取各个方面都高度模拟了作战推演的场景,需

要获取具体的对空雷达、对地雷达、导弹探测、舰

艇雷达等信息后才能判断态势信息,这部分可观察

信息非常复杂,需要结合各种情况才能发现部分目

标,对于战争迷雾更加真实。因此,作战推演观察

信息完全可以借鉴POMDP进行可观察信息建模,

但还需要设置各种更加符合真实装备的作战情况,

需要在环境中提前设置有针对性的条件。

1.8对手建模

在博弈对抗过程中对手AI的建模也是至关重

要的,不同水平的AI会导致博弈对抗的胜率不同,

并且直接影响推演对抗的价值[39-45]。如果对手AI

水平过低,就不能逼真地模拟假设对手,博弈过程

和推演结果也价值不高。在DeepMind开发的

AlphaGo和AlphaStar中,AI性能已经可以击败职

业选手,通过训练后产生的决策方案已经可以给职

业选手新的战术启发。国内《墨子•未来指挥官系统》

也与国内高校合作,研发的基于深度强化学习的智

能AI已经可以击败全国兵棋大赛十强选手。而在

中国科学院自动化研究所开发的“庙算•智胜”上,

积分排名前三名的均是AI选手,胜率均在80%以

上[11]。但是,现有对手建模主要还是聚焦在一对一

的对手建模,很少学者研究多方博弈,而这在实际

作战推演中更加需要。在实际作战对抗博弈过程中

普遍会考虑多方博弈,如在《墨子•未来指挥官系统》

的海峡大潮想定中,红方不仅面对蓝方,还有绿方,

蓝方和绿方属于联盟关系。这就需要在对手建模中

充分考虑这种复杂的博弈关系。

1.9想定设计

博弈对抗的环境因素也是影响智能决策的重

要因素之一。在围棋、国际象棋这些棋类游戏中,

想定是永久固定不变的,而且也完全没有环境的影

响,因此AlphaGo这类智能AI完全没有考虑环境

的因素。在《觉悟AI》《Dota2》这类游戏中就需

要考虑不同“英雄”在同一个场景中会产生不同的

影响。不同的“英雄”阵容搭配也会对推演结果产

生不同的影响,《觉悟AI》尝试利用强化学习技术,

结合历史数据解决这一问题。这对于作战推演的武

器装备搭配也具有启发价值。但是在实时策略游戏

中要考虑更加复杂的环境因素及其影响,不仅作战

单元会产生变化,并且在不同的作战推演中,不同

的环境之中也会有不同的地形、地貌,这些因素会

对作战推演的过程产生非常重要的影响。

《CMANO》《墨子·未来指挥官系统》《战争游戏:

红龙》中都需要考虑地形因素。例如《CMANO》

中登陆作战需要考虑水雷所在区域、登陆舰艇吃水

深度,否则会产生搁浅,不能在理想区域登陆会对

·162·智能科学与技术学报第4卷

作战目标产生较大负面影响。因此,对于实际作战

推演来说,最大的挑战是防止训练的深度强化学习

AI对某个想定产生过拟合。作战场景是千变万化

的,传统的基于规则的AI就很难适应变化的想定,

早期的《先知•兵圣》比赛中就比较突出地显示了这

一问题。强化学习也容易训练出某个过拟合的模型,

导致只在某个想定会有较好的AI智能性,假如更换

作战想定就需要重新训练很长时间。为了解决这一问

题,现有思路是利用迁移学习、先验知识和强化学习

的思路来增强算法的适应性,并可以加速回报函数收

敛,保证快速训练出高水平的AI模型。

1.10总体比较

本节针对智能作战推演所需要的关键属性,结

合当前游戏AI、智能兵棋等相关博弈平台,利用相

关文献[6,8,24-25,29-30,37-39,43,46-49]进行分析,经过对比不

难发现游戏AI过渡到智能兵棋,甚至是智能作战

推演的难度,各个关键属性也是未来需要研究突破

的关键点,具体见表1。

ayR为奖赏函数(rewardfunction),

R

ss′

表示

agent在状态s下执行动作a,到达下一状态s

,从

环境交互中获取的奖励;

yT为环境的状态转移函数(statetransition

a′

S

t

=

s,A

t

=

a

function),P

ss′

=

P

S

t

+

1

=

s∣

表示在状

态s下执行动作a,并转移到状态

s

的概率。

在MDP中,agent与环境交互如图1所示

图1agent与环境交互

2作战推演的智能决策核心技术思路

2.1强化学习技术框架

强化学习的核心思想是不断地在环境中探索

试错,并通过得到的回报值来判定当前动作的好

坏,从而训练出高水平的智能AI[50]。马尔可夫决策

过程(Markovdecisionprocess,MDP)是强化学习

的基础模型,环境通过状态与动作建模,描述agent

与环境的交互过程。一般地,MDP可表示为四元组

[44]

yS为有限状态空间(statespace),包含agent

在环境中的所有状态;

yA为有限动作空间(actionspace),包含agent

在每个状态上可以采取的所有动作;

表1

游戏/兵棋

《Go》

《星际争霸Ⅱ》

《Dota2》

《CMANO》

状态空间

中等

复杂

复杂

非常复杂

动作空间

中等

复杂

复杂

非常复杂

非常复杂

复杂

非常复杂

中等

agent从环境中感知当前状态s

t

,从动作空间A

中选择能够获取的动作a

t

;执行a

t

后,环境给agent

相应的奖赏信号反馈r

t+1

,环境以一定概率转移到

新的状态s

t+1

,等待agent做出下一步决策。在与环

境的交互过程中,agent有两处不确定性,一处是在

状态s处选择什么样的动作,用策略π(a|s)

表示

agent的某个策略(即状态到动作的概率分布);另

a一处则是环境本身产生的状态转移概率P

ss′

,强化

学习的目标是找到一个最优策略π*,使得它在任意

状态s和任意时间步骤t都能够获得最大的长期累

计奖赏,即:

⎧∞

k

π=

argmax

π

E

π

⎨∑γr

t

+

∣s

=

s

⎬kt⎩k

=

0⎭

*(1)

其中,E

π

表示策略下的期望值,γ∈[0,1)为折扣率

(discountrate),k为后续时间周期,r

k

+

t

表示agent

各博弈环境关键属性

决策数量

中等

较多

较多

巨大

巨大

较多

巨大

中等

胜利条件

数子法/数目法

单任务目标

单任务目标

多任务目标

多任务目标/积分

单任务目标

多任务目标

积分

回报值设置

简单

中等

中等

复杂

复杂

中等

复杂

简单

战争迷雾

观察信息

简单

中等

中等

复杂

复杂

中等

复杂

中等

对手建模

中等

中等

中等

复杂

复杂

中等

复杂

中等

想定设计

固定

变化较小

固定

变化较大

变化较大

固定

变化较大

固定

《智戎•未来指挥官》非常复杂

《王者荣耀》

《战争游戏:红龙》

《MaCA》

复杂

非常复杂

中等

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·163·

在时间周期(t+k)上获得的即时奖赏。

强化学习主要通过寻找最优状态值函数V*(s)

或最优状态动作值函数Q*(s,a)来学习最优策略

π*。其中

V*(s)和Q*(s,a)计算式如式(2)、式(3)

所示:

V*(s)

=

max

⎧∞

k

π

E

π

⎨∑(2)

γr

t

+

k

s

t

=

s

k

=

0⎭

Q*(s,a)

=

max

⎧∞

k

π

E

π

(3)

∑γr

t

+

k

s

t

=

s,a

t

=

a

k

=

0⎭

2.2强化学习主流算法

2.2.1基于值函数的强化学习

强化学习早期利用Q-learning算法来建立游戏

AI,通过预先设计每步动作可以获得的回报值来采

取动作。Q-learning最大的局限是需要提前设计好

所有执行动作的回报值,它用一张Q表来保存所有

的Q值,当动作空间巨大时,该算法难以适应。因

此,Q-learning算法只能在比较简单的环境中建模

使用,如在简单的迷宫问题中,让agent通过

Q-learning算法自动寻找出口。

DeepMind在2015年第一次利用DQN(deepQ

network)算法在Atari游戏环境中实现了高水平的

智能AI,该AI综合评定达到了人类专业玩家的水

平[24]。这也使得DQN算法成为强化学习的经典算

法。DQN算法通过神经网络拟合Q值,通过训练

不断调整神经网络中的权重,获得精准的预测Q

值,并通过最大的Q值进行动作选择。DQN算法

有效地解决了Q-learning算法中存储的Q值有限的

问题,可以解决大量的离散动作估值问题,并且

DQN算法主要使用经验回放机制(experiencerep-

lay),即将每次和环境交互得到的奖励与状态更新

情况都保存起来,用于后面的Q值更新,从而明显

增强了算法的适应性。DQN由于对价值函数做了近

似表示,因此强化学习算法有了解决大规模强化学

习问题的能力。但是DQN算法主要被应用于离散

的动作空间,且DQN算法的训练不一定能保证Q值

网络收敛,这就会导致在状态比较复杂的情况下,

训练出的模型效果很差。在DQN算法的基础上,

衍生出了一系列新的改进DQN算法,如DDQN

(doubleDQN)算法[51]、优先级经验回放DQN

(prioritizedexperiencereplayDQN)算法[52]、竞争

构架Q网络(duelingDQN)算法[53]等。这些算法

主要是在改进Q网络过拟合、改进经验回放中的采

样机制、改进目标Q值计算等方面提升传统DQN

算法网络的性能。总体来说,DQN系列强化学习

算法都属于基于值函数的强化学习算法类型。基

于值函数的强化学习算法主要存在3点不足:对

连续动作的处理能力不足、对受限状态下的问题

处理能力不足、无法解决随机策略问题。由于这

些原因,基于值函数的强化学习方法不能适用所

有的场景,因此需要新的方法解决上述问题,例

如基于策略的强化学习方法。

2.2.2基于策略的强化学习

在基于值函数的强化学习方法中,主要是对价

值函数进行了近似表示,引入了一个动作价值函数

q,这个函数由参数w描述,以状态s与动作a为

输入,计算后得到近似的动作价值,即式(4):

q

ˆ

(s,a,w)

q

π

(s,a)

(4)

在基于策略的强化学习方法中,主要采用类似

的思路,只不过主要对策略进行近似表示。此时,

策略可以被描述为一个包含参数θ的函数,θ主要

为神经网络中的权重,即式(5):

π

θ

(s,a)

=

P(a|s,θ)

≈π(a|s)

(5)

在基于策略的强化学习方法中,比较经典的就

是理查德·萨顿()在2000年提

出的AC(actor-critic)框架强化学习算法。AC包

括两部分:演员(actor)和评价者(critic)。其中

actor使用策略函数负责生成动作(action),通过动

作与环境进行交互。而critic使用第2.2.1节提到的

价值函数来评估actor的表现,并指导actor下一阶

段的动作。总体来说,critic通过Q网络计算状态

的最优价值V

t

,而actor利用V

t

迭代更新策略函数

的参数,进而选择动作,并得到反馈和新的状态,

critic使用反馈和新的状态更新Q网络参数w,在

后面critic会使用新的网络参数w帮助actor计算状

态的最优价值V

t

2016年DeepMind在国际机器学习大会

(InternationalConferenceonMachineLearning)提

出了A3C算法[54]。之前的DQN算法为了方便收敛

使用了经验回放的技巧;AC也可以使用经验回放

的技巧。A3C更进一步,还克服了一些经验回放的

问题,主要采取随机性策略[55]。这里确定性策略和

随机性策略是相对而言的,对于某一些动作集合来

说,它可能是连续值,或者非常高维的离散值,这

·164·智能科学与技术学报第4卷

导致动作的空间维度极大。如果使用随机性策略,

即像DQN算法一样研究它所有的可能动作的概率,

并计算各个可能动作的价值,那需要的样本量是非

常大的。于是DeepMind就想出使用确定性策略来

简化这个问题[56]。作为深度确定性策略梯度(deep

deterministicpolicygradient)、critic目标网络和深度

双Q网络(doubleDQN)的当前Q网络,目标Q

网络的功能定位基本类似,但是DDPG有自己的

actor策略网络,因此不需要贪婪法这样的选择方

法,这部分DDQN的功能到了DDPG可以在actor

当前网络完成。而对经验回放池中采样的下一状

态s'使用贪婪法选择动作a',这部分工作的作用

是估计目标Q值,因此可以放到actor目标网络

完成。

此外,actor当前网络也会基于critic目标网络

计算出的目标Q值进行网络参数的更新,并定期将

网络参数复制到actor目标网络。DDPG参考了

DDQN的算法思想,通过双网络和经验回放,以及一

些其他的优化,比较好地解决了AC难收敛的问题。

因此在实际产品中尤其是与自动化相关的产品中使

用得比较多,是一个比较成熟的AC算法。2017年,

OpenAI在神经信息处理系统大会(Conferenceand

WorkshoponNeuralInformationProcessingSys-

tems)上又提出了改进的多agent深度确定性策略

梯度(multi-agentdeepdeterministicpolicygradient)

算法[57],把强化学习算法进一步推广应用到多agent

环境。在AC框架下,比较经典的算法还有近端策

略优化(proximalpolicyoptimization)算法[58]、柔

性演员−评论家(softactor-critic)算法[59]、双延迟

深度确定性策略梯度(twindelayeddeepdetermi-

nisticpolicygradient)算法[60]等,这些算法也都是

在样本提取效率、探索能力增强方面进一步改进优

化AC框架的。

2.3深度学习结合强化学习

在现有策略对抗游戏中利用深度学习技术结

合强化学习来实现游戏AI已成为主流研究方向[52]。

其主要思路为在游戏对抗过程中利用图像特征的

卷积提取技术。如在《觉悟AI》中,图像特征的提

取采取了分层的思想,在主视野和小地图中,对不

同种类的要素进行提取并合并到一个层中,最终

每层都提取到一类关键属性节点信息,形成“英

雄”“野怪”“小兵”位置矩阵[6]。最终将多尺度

特征的信息融合形成全局态势特征信息,这一工

作同样应用在AlphaStar中。对于作战推演来说,

态势理解一直是研究的难点,那么考虑利用深度

学习技术来实现态势图像特征的提取,进而最终

输出态势图的关键信息将是解决方案之一。此外,

笔者所在团队也尝试利用深度学习技术对态势信

息进行卷积提取,然后将提取信息与语义模型结

合,生成当前态势的直观文本语义。而在前端利

用强化学习进行实体单元控制,这样就可以将强

化学习、深度学习、自然语言处理融合,在推演

过程中实时生成方便人类理解的智能决策文本语

义信息,这一工作对于实现推演系统中的人机融

合具有积极意义。

2.4分层强化学习

智能博弈对抗的建模过程面临两个难题,一个

是动作空间庞大,另一个是奖励稀疏问题。面对这

两个问题,有研究人员提出了分层强化学习的解决

思路。该思路的核心是对动作进行分层,将低层级

(low-level)动作组成高层级(high-level)动作,

这样搜索空间就会被减小[52]。同时基于分层的思

想,在一个预训练的环境中学习有用的技能,这些

技能是通用的,与要解决的对抗任务的关系不太紧

密。学习一个高层的控制策略能够使agent根据状

态调用技能,并且该方法能够很好地解决探索效率

较低的问题,该方法已在一系列稀疏奖励的任务中

表现出色[61-62]。《觉悟AI》同样设计了分层强化学

习的动作标签来控制“英雄”的微观操作。具体来

说,每个标签由两个层级(或子标签)组成,它们

表示一级和二级操作。第一个动作,即一级动作,

表示要采取的动作,包括移动、普通攻击、一技能、

二技能、三技能、回血、回城等。第二个是二级动

作,它告诉玩家如何根据动作类型具体地执行动

作。例如,如果第一个层级是移动动作,那么第二

个层级就是选择一个二维坐标来选择移动的方向;

当第一个层级为普通攻击时,第二个层级将成为选

择攻击目标;如果第一个层级是一技能(或二技能、

三技能),那么第二个层级将针对不同技能选择释

放技能的类型、目标和区域。这对于作战推演中不

同算子如何执行动作也具有参考价值,每一个类型

的算子同样存在不同的动作,例如坦克可以选择直

瞄射击、间瞄射击、移动方向等,实际作战推演不

同装备同样具有众多复杂的动作,通过这样的特征

和标签设计,可以将人工智能建模任务作为一个层

次化的多类分类问题来完成。具体来说,一个深层

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·165·

次的神经网络模型被训练以预测在给定的情境下

要采取的行动。作战推演也可以参考层次化的动作

标签来不断细化动作执行过程,进而训练解决复杂

的动作执行难题。在作战推演中完全可以借鉴这种

思路设计适用于作战场景的分层强化学习框架。南

京大学的研究人员利用分层强化学习建立宏观策

略模型和微观策略模型,根据具体的态势评估宏观

策略模型,然后利用宏函数批量绑定选择微观动

作,这样可以在不同的局势下选择对应的一系列动

作,进而实现了分层强化学习在《星际争霸》环境

中的应用[63]。分层强化学习比较通用的框架是两

层,顶层策略被称为元控制器(meta-controller),

负责生成总体宏观目标,底层策略被称为控制器

(controller),负责完成给定的子目标,这种机制本

质也对应作战推演中的战略、战役、战术3个层次,

不同层次关注的作战目标各有不同,但又互相关

联。其他相关改进是学者在奖赏函数设置、增加分

层结构、保持分层同步、提高采样效率等方面改进

分层强化学习[64]。

2.5多agent强化学习

在游戏博弈对抗过程中必然需要考虑多agent

建模,而在作战推演中利用多agent技术实现不同

作战单元的协同合作也是博弈智能研究的重点之

一。在这方面OpenAI和AlphaStar在多agent深度

强化学习方面使用了不同的技术思路。OpenAI使

用的是分布异构的多agent建模思路,每一个agent

都有一个相同的训练神经网络,但是没有全局控制

网络[37,47]。AlphaStar则是使用了一个集中的控制网

络对不同的单元进行控制。还有一种思路是对于每

一个agent,都建立属于各自的神经网络进行训练。

第三种思路是最理想的,但是训练过程复杂,也难

以适用于大规模的推演过程[43]。对于实际作战推演

来说,除了要考虑多agent建模方法,还需要让每

个agent具有柔性加入的能力,在对抗过程中可以

按照需要随时加入所需要的作战单元,而不需要每

次加入作战单元后,再重新训练一遍网络。基于此

考虑,让每一个agent具有自己独立的神经网络将

是更好的选择。

2.6LSTM技术结合深度强化学习

《觉悟AI》在设计过程中利用深度学习不断

提取游戏界面的态势信息。利用深度学习虽然可以

把一个对抗界面的所有特征提取出来,但是提取的

是静态的某一帧的界面信息,并没有把时间步之间

的信息关联起来。时间步一般指一帧,也可以指多

帧,其关键是将历史的帧信息和现在的信息关联起

来。基于此,需要引入长短期记忆(longshort-term

memory,LSTM)网络。让LSTM一次接收多个

时间步信息来学习这些时间步之间的关联信息,从

而让LSTM帮助“英雄”学习技能组合,并选择

“英雄”应该关注的主视野和小地图的具体方面,

进而综合输出合理的动作,也通过LSTM关联历

史数据来训练强化学习的神经网络模型[65]。在实

际作战推演过程中同样需要考虑这种情况,防止出

现训练的AI为了某个战术目标而忽视了整体战略

目标。

2.7多属性决策结合强化学习

强化学习的回报值往往根据专家经验手工设

置,但是这种手工设置的回报值的收敛性及智能性

均难以保证,并且长时间训练才能评估设置的回报

值的效果。因此可以考虑结合推演数据,结合多属

性决策方法进行客观分析,总结提炼出合适的回报

值。首先,从推演环境中获取各关键属性数据,如

在陆战对抗环境提取作战单元位置、高程、类型、

射程属性、打击属性、装甲属性等。以这些属性数

据为基础,计算出对应的评估指标,如目标距离威

胁、目标攻击威胁、目标速度威胁等,通过熵权法

计算相应权重,并最终结合多属性方法对敌方威胁

度进行排序,将其和强化学习的回报值函数进行关

联,进而设置出更加客观合理的回报值函数,这样

有利于提高强化学习训练的智能性,并有利于加快

收敛。

3其他可用智能决策技术

在智能博弈领域,国际上的Atari、AlphaGo、

AlphaStar、OpenAI都取得了显著的成果,国内《觉悟

AI》《墨子•未来指挥官系统》AI、《CASIA-先知1.0》

也都取得了突破性的进展。这些工作主要以深度强化

学习技术为主,但均搭配使用了其他相关的人工智能

技术。总体来说,单纯地利用深度强化学习技术并

不能很有效地实现智能AI,有必要在训练过程中结

合其他技术提高AI性能。同时,如果想要实现特

别突出的AI智能,那么将在训练的过程中花费大

量的成本。AlphaStar的训练过程持续了10个月,

使用了51000个CPU。该工作同时有30个博士生

参与,花费数百万美元的成本,才在游戏智能博弈

领域实现了超过职业选手水平的AI智能[43]。

·166·智能科学与技术学报第4卷

3.1进化算法

借鉴生物进化论,遗传算法将要解决的问题模

拟成一个生化进化的过程,通过复制、交叉、突变

等操作产生下一代的解,并逐步淘汰适应度函数值

低的解,增加适应度函数值高的解。这样进化N代后

就有可能进化出适应度函数值很高的个体。

在1993年就有人尝试用遗传算法训练神经网

络,但是当时的计算机算力不足,导致这个方向并

没有引起过多关注[66-68]。随着深度强化学习技术的

火热发展以及算力的显著提高,部分学者和机构又

开始关注这一结合点。OpenAI在2017年尝试直接

利用进化算法来代替强化学习技术,在MuJoCo

(multi-jointdynamicswithcontact)和Atari上取得

了一定的效果。但是这一工作的前提是需要大量的

CPU进行大规模训练,且实验环境比较简单[69]。优

步(Uber)AI在2017年尝试将基于种群的遗传算

法和深度神经网络结合,利用进化策略而不是梯度

策略来更新权重参数,取得的算法性能在一定程

度上优于A3C、DQN算法[70]。除了在优化网络

参数方面进行结合,将进化策略和多agent强化

学习结合也是一个有意义的方向。DeepMind就是

在AlphaStar中利用了联盟赛制,在训练出的agent

中不断优化筛选出更加优秀的agent,从而不断演

化,最终训练出超过职业选手水平的游戏AI[48]。

总体来说,相较于强化学习算法,单纯利用遗

传算法有明显的缺陷,遗传算法采样效率过低,并

且不可以按照梯度优化的方式进行参数调整。遗传

算法在实际推演中可能需要每一局结束才可以更

新一个策略或者优化一个动作,而不能像强化学习

算法在推演中每一步都进行一定的更新。但是,遗

传算法的优势是适合在大规模的空间中进行探索,

寻找全局最优解。而强化学习算法随着梯度下降进

行优化,很容易寻找到局部最优解,而不是全局最

优解。因此,如果找到合适的结合角度,遗传算法

和强化学习两者结合会有一定的实际价值。

3.2决策树

决策树方法是在已知各种情况发生概率的基

础上,通过构成决策树来求取净现值的期望值大于

等于零的概率,并判断其可行性的决策分析方法,

是直观运用概率分析的一种图解法[71]。其本身是一

种树形结构,其中每个内部节点表示一个行为判

断,每个分支代表一个判断结果的输出,每个叶节

点代表一种分类结果。

在作战推演建模的早期研究中,决策树是一种

非常重要且常用的建模方法[72],其易于构建作战

实体的行为规则,有利于分析基于决策树的作战实

体行为模型[73],这在作战推演的初期是一种快速

建立对手模型的高效办法,并且基于决策树的作战

AI也具有一定的初步智能性。在现在的游戏智能

博弈对抗过程中,虽然基于决策树的研究总体比较

少,但是衍生出了一些重要的算法,如南京大学

ZhouZH等人[74]提出的深度森林算法就是在决策

树的基础上拓展而来的。这些工作都为后面的智能

博弈领域的研究提供了重要的理论基础。

3.3基于规则

基于规则的AI(简称规则AI)主要是结合博

弈对抗环境的领域知识,构建基于专家经验知识的

规则AI。这类规则AI主要以高水平玩家的经验知

识为基础,对领域知识进行程序化,进而形成具有

一定智能性的推演AI。近年,在国内的智能博弈比

赛中,参赛团队还是普遍以规则AI为基础,对规

则AI进行改良和设计进而参赛[3]。在2020年的智

能兵棋比赛中,大部分团队及基准AI还是以规则

AI为主流。当然,单纯基于知识的规则也存在各种

局限,如智能性普遍较低、通用性较差等。但是,

规则AI的好处就是便于分析设计,可以快速构建

具有一定智能性的博弈对抗AI环境。规则AI可以

作为对手模型进行构建,让强化学习AI与规则AI

进行对抗,初步验证强化学习的智能性。同时,通

过规则驱动结合强化学习的智能AI构建,也是当

前国内智能兵棋的研究热点,利用高水平玩家快速构

建基于规则的AI,让agent快速学习有效动作并存入

模型中,方便神经网络直接提取有效经验,进而实现

强化学习的快速收敛,加快学习进程。国内也有研究

尝试利用知识驱动结合数据驱动,通过知识牵引AI

的整体策略,以数据驱动AI的具体动作,设计出基

于知识牵引与数据驱动的兵棋AI框架[18]。

3.4势能统计

国内研究人员借鉴物理学中的势能理论与方

法,对指挥决策人员与战场要素间作用关系及其发

展趋势进行量化分析和形式化表达,引导智能决策

实体进行行动策略选择。并且从势能角度分析了作

战指挥决策机理,尝试利用基于变权的动态势能模

型和基于统计分析的静态势能模型,构建了基于综

合势能的作战行动序列生成方法。并尝试在智能兵

棋领域进行实验,验证了该算法优于多数规则及知

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·167·

识AI[75]。实际上,该方法是利用离线和在线统计数

据综合分析出智能兵棋推演AI的。可以尝试将该

方法与强化学习结合,弥补强化学习开始阶段训练

收敛速度过慢的缺陷,并在强化学习算法执行过程

中,结合综合势能进行动作校正,从而生成更加智

能化的作战行动序列。

3.5随机森林

在机器学习中,随机森林是一个包含多个决策

树的分类器,并且输出的类别是由个别树输出的类

别的众数而定的。BreimanL[76]推论出随机森林算

法。随机森林的随机性主要体现在可以从原始数据

中采取有放回的抽样构造子数据集,子数据集的数

据量和原始数据集是相同的。随机森林可以随机选

取待选特征,随机森林中的子树的每一个分裂过程

并未用到所有的待选特征,而是从所有的待选特征

中随机选取一定的特征,再在随机选取的特征中选

取最优的特征。随机森林的优点是实现相对简单,

训练速度较快,可以并行实现;相比单一的决策树,

能学习到特征之间的相互影响,并且不容易过拟

合;对于高维数据来说,不需要做特征选择,明显

提高了训练效率。

在智能博弈对抗领域,与随机森林相关的研究其

实较少,但是其在一定程度上可以作为训练数据的有

效手段,进而弥补一些强化学习算法训练效率较低的

缺陷。已有学者在德州扑克的博弈对抗环境中将策略

空间设计为一种快速且高效的决策树,进而有利于使

用多种方法来学习这种启发式的方法[77]。

3.6人件技术

真实、完整地刻画人的直接参与特点,并且对

人的服务角色进行统一管理和调度是构建人机融

合系统的重要前提,人件技术能够更好地把人真正

融入人机交互系统中,使该系统真正体现以人为

本、强调智能的新型交互系统特点[78-79]。在智能博

弈对抗环境中,人件技术主要是在专家经验知识中

进行考虑,主要利用高水平玩家的数据进行监督学

习,方便快速高效地训练出高水平的深度强化学习

AI。人件技术的核心是在训练过程中融入人的行为

偏好,通过人类行为决策数据进行训练,训练出一

个初步的模型。而强化学习算法可以直接从初步的

模型中提取相关数据,进而能训练出更具有智能性

的AI。DeepMind对AlphaStar做了一组关于专

家经验的消融实验,该消融实验证明AlphaStar

在复杂环境中,单纯依靠强化学习进行训练很难

获得效果。同时该实验证明在仅有监督学习技术

的支持下,AlphaStar可以达到较好的效果。在

充分利用人类数据后,AlphaStar的性能可以再

次提高60%。

3.7统计前向规划算法

统计前向规划算法使用仿真模型(也称为前向

模型)自适应地搜索有效的动作序列,此类算法提

供了一种简单通用的方法,为各种游戏提供快速自

适应的AI控制。常见的经典模型为MCTS算法,

MCTS算法最重要的优点是不需要领域特定知识,

可以在不了解游戏规则的情况下应用,这使得它很

容易适用于任何可以使用树进行建模的领域。像

Go[25]这样的游戏,分支因子明显具有高数量级特

征,而有用的启发式又很难形成,这类问题就需要

使用MCTS算法解决[80]。尽管MCTS算法在大范

围的博弈中提供了更强的决策能力,但将其应用在

作战推演领域仍存在很多挑战和瓶颈。在作战推演

领域,当需要搜索的图的分支因子和深度被限定,

作战推演非常耗费CPU、GPU资源时,MCTS算法

是否仍然是指导作战推演的最佳方法是一个有待

研究的问题。

3.8小地图设置技术

在多个智能博弈对抗游戏中普遍存在一个小

地图,用来辅助玩家快速了解整体态势。AlphaStar

利用ResNet在小地图中进行特征提取,获得对抗

博弈中的关键属性信息,最终形成一个离散的单元

特征图。AlphaStar正是通过小地图+单位列表+标量

信息(资源信息)汇总输出各种智能决策给出的执行

方案。在实际作战推演中,也需要考虑针对某个

战场的全局地图信息,指挥员可能关注某个局部

作战场景,同时也应该考虑全局的作战信息的获

取[27]。因此,在作战推演中智能决策AI的训练

也需要设计小地图机制,来辅助深度强化学习智

能AI进行训练。

4作战推演技术难点及技术解决方案

4.1冷启动问题

在对强化学习的训练过程中,研究人员总是会

遇到训练过程时间长、难以收敛的问题,这种情况

通常被称为冷启动问题。针对这个问题,现有研究

人员提出了多种解决方案,比较有效的解决方案是

利用专家的领域知识预先设计固定的先验知识,利

用先验知识进行智能博弈训练,进而在强化学习的

·168·智能科学与技术学报第4卷

经验存储中得到高水平的训练数据。在强化学习的

后期训练中直接利用这些先验知识对抗出来的经

验数据进行模型训练,从而可以有效缩小探索空间

和动作空间,进而保证强化学习可以快速训练出高

水平的AI,避免了前期盲目探索的情况。在实际作

战推演过程中,也可以考虑使用高水平指挥员的先

验知识,提前进行形式化存储,进而在强化学习训

练过程中导入先验知识,加快训练结果的收敛,得

到较高水平的智能AI。

4.2过拟合问题

在智能博弈对抗过程中经常会出现训练一定

阶段后陷入局部最优结果的情况。表现为在智能兵

棋比赛中,经过长时间训练后,强化学习训练出的

结果是控制算子进行固定的线路和射击套路,这种

情况可被称为过拟合现象。为了避免这种情况的出

现,应该在算法设计中加入随机可能性,在一定比

例的动作选择概率下随机探索,而不是完全按照强

化学习算法给出的结果进行执行。其次,按照贝尔

曼方程,应该在奖励函数设计过程中,考虑当前影

响和未来影响的可变比重,即回报函数设计包括一

定的可变性,而不是固定不变的。当然也可以利用

强大的计算力,生成大量新的对手,从不同方面与

需要训练的agent进行对抗,从而避免因为固定对

手而导致的过拟合现象。

4.3想定适应性问题

智能博弈的AI建模普遍存在适应性不高的问

题,有部分研究人员开发的AI是针对某个固定想

定开发的,导致更换博弈想定后AI性能大幅下降。

考虑到大部分数据或任务是存在相关性的,通过迁

移学习可以将已经学到的模型参数通过某种方式

分享给新模型,从而加快优化模型效率。中国科学

院自动化研究所的研究人员引入了课程迁移学习,

将强化学习模型扩展到各种不同博弈场景,并且提

升了采样效率[81]。DeepMind在AlphaZero中使用

同样的算法设置、网络架构和超参数,得到了一种

适用于围棋、国际象棋和将棋的通用算法,并战

胜了基于其他技术的棋类游戏AI[82]。《觉悟AI》

引入了课程学习方法,将训练至符合要求的参数

迁移至同一个神经网络再次训练、迭代、修正以提

高效率,使《觉悟AI》模型能熟练掌握40多个“英

雄”[6,36]。在作战推演中,更需要这种适用性强的

通用AI算法,不需要在更换作战想定后重新训练

模型,也只有这样才可以更加适应实时性要求极高

的作战场景。

4.4智能蓝方建模

对手建模指在两个agent博弈的环境中,为了

获得更高的收益,需要对对手的策略进行建模,利

用模型(隐式)推断其所采取的策略来辅助决策。

智能蓝方建模主要是在具有战争迷雾的情况下,对

对手进行建模,并预测对手的未来动作。其前提通

常是博弈环境存在战争迷雾,我方在无法获取准确

的对手信息的情况下,针对对方进行预测评估。在

对抗过程中,一种假设是对手是完全理性的,对对

手(队友)进行建模是为了寻找博弈中的纳什均衡

策略。为了解决这一难点问题,阿尔伯塔大学的研

究人员提出了反事实遗憾最小化(counterfactual

regretminimization,CFR)技术,该技术不再需要

一次性推理一棵完整的博弈树,而是允许从博弈

的当前状态使用启发式搜索。另外,对手建模可

分为隐式建模和显式建模。通常隐式建模直接将

对手信息作为自身博弈模型的一部分来处理对

手信息缺失的问题,通过最大化agent期望回报

的方式将对手的决策行为隐式引进自身模型,构

成隐式建模方法。显式建模则直接根据观测到的

对手历史行为数据进行推理优化,通过模型拟合

对手行为策略,掌握对手意图,降低对手信息缺

失带来的影响[83]。总体来说,对手建模技术是智

能博弈对抗是否有效的关键,只有建立一个可以

高效预估对手行为的模型,才能保证智能博弈

AI的有效性。

4.5路径规划问题

路径规划作为智能博弈中的重要组成部分,其

主要任务是根据不同的想定,针对每个单元在起始

点和终止点之间快速规划一条由多个路径点依次

连接而成的最优路径[84]。在智能博弈的背景下,最

优路径的含义不仅仅是两点之间的距离最短,而是

综合考虑博弈态势、资源情况和综合威胁后的最佳

路径。但是,已有的路径规划算法主要以A-Star算

法、Dijkstra算法、D*算法、LPA*算法、D*lite算

法等为典型代表,在物流运输、无人驾驶、航空航

天等领域都取得了显著成效。同时也有学者提出其

他的路径规划算法,如基于神经网络和人工势场的

协同博弈路径规划方法[85]等,但是在智能博弈的环

境下,需要考虑的问题更加复杂,需要进一步对这

些算法进行改进优化。

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·169·

5作战推演未来发展建议

5.1智能作战推演通用框架

现有的游戏平台中也有比较成熟的AI开发通用

框架(如pysc2[86-87]),但是相比成熟的作战推演通

用框架还有较大差距。智能作战推演系统可以设计

一个适用于复杂环境的通用框架,该框架包括作战

推演算子、地图、规则、想定。同时最关键的是设

计通用的算法接口,这些接口可以方便智能博弈算

法的设计与实现,如环境加载接口、环境重置接口、

环境渲染接口、动作随机选择接口、执行动作接口

等。同时,也可以提前设计智能作战推演的基本功

能框架,包括地图编辑模块、想定编辑模块、算

子管理模块、规则编辑模块、推演设置模块、数

据分析模块、系统配置模块。其中最核心的是推

演设置模块可以自由选择每局推演使用的智能算

法,从而实现智能算法设计和作战推演环境开发

的解耦,这样才可以保证智能作战推演的灵活适

应性。通用框架中另一个重要的因素是可以提供

AI使用的工具,例如对于深度学习的分层态势显

示,可以直观地提供一个通用接口进行展现,方

便指挥人员快速调用该接口实现智能算法的辅助

决策功能。

5.2智能战略、战役、战术决策方案制定

智能作战推演必然面对的问题是选择在战略、

战役还是战术场景下应用。现阶段主要还是在战术

层面进行智能算法的研究,包括国内的某智能兵棋

推演大赛,各种想定只有算子数量种类的差别,但

本质上都还属于战术智能决策。《墨子•未来指挥官

系统》中的对抗想定更接近于战役层面的智能决策

方案,现阶段对战略层面的智能决策的研究还比较

少。其原因就在于面临的想定越宏观,智能决策的

技术挑战越大,包括动作空间、状态空间的变化以

及现阶段agent之间的协同交互还并没有很成熟。

因此,当前考虑战术层面的智能决策更容易。如果

要解决战略层面的智能决策,必然需要研究各agent

之间的协同机制,还要考虑作战的后勤支持机制。

然而当前尚未有游戏、作战推演在智能推演中考虑

后勤机制的影响。另外,战术、战役、战略层面的

方案制定技术思路也并不相同,有的研究以各

agent独自训练、交互,进而涌现出智能决策方案。

这一技术思路更加逼近真实场景,但是算力要求和

技术实现难度都较高。另一思路是建立统一的宏观

agent模型,利用宏观agent控制所有算子进行推

演,这一技术思路实现比较简单,所需的算力也较

低,可以考虑将其作为初期实现的路径之一。

5.3人机融合的智能作战推演模式建立

智能作战推演的未来趋势主要分为人不在环

和人在环两种类型。人不在环主要类似于

AlphaStar、OpenAI的游戏智能,通过预先训练完

成agent,完全由训练好的agent自主进行博弈对抗,

左右互搏,实现方案的预演和推测。人在环的模式

又分为两种,一种是实现人机对抗,国内已有这方

面的比赛,通过开发训练好的智能算法agent与高

水平指挥人员进行对抗,探测发现自身指挥问题并

不断提高,可用于指挥人员训练场景。另一种人在

环更加困难,即agent可以响应人的指令,并完成

低层次的规划任务。主要还是由指挥人员进行整体

战略宏观判断,并通过指令交互部署agent完成低

层次任务,最后总体实现战略目标。同时,也需要

对人机融合模式的框架进行探索,如将人类领域知

识引入智能算法中,帮助智能算法更高效地实现智

能作战推演。

5.4开放性的仿真实验平台建立

随着智能博弈的兴起,国内外高校、研究所、企

业都已逐渐开发完成各种类型的智能博弈平台。但是

不同平台之间并不互通,相互独立,形成了各个平台

的信息孤岛,在智能算法开发的过程中,面对新的平

台就需要研究人员重新学习适应新的平台接口和架

构,这浪费了研究人员大部分精力。另外,智能博弈

的强化学习接口以及其他算法虽然在不同平台体现

不同,但本质都一样,很有必要构建一个通用一体化

智能博弈平台框架,减少不断重新开发、学习的过程,

提高智能博弈平台的研究效率也势在必行。

6结束语

本文构建并梳理了智能作战推演的国内外发

展概况,详细介绍了智能作战推演所需要的各项技

术难点及国内外进展,同时借鉴游戏AI领域的发

展现状并将其与智能作战推演所需要的技术需求

进行对比,分析现有技术还需要改进和优化的方

向,也对智能作战推演的各个研究方向进行了归

纳。可以为从事游戏AI、智能兵棋、智能作战推演

等智能博弈领域的研究人员提供一定的思路。当前

智能博弈的研究思路还主要以深度强化学习为基

础,但绝不仅仅是深度强化学习技术,各种传统的

·170·智能科学与技术学报第4卷

智能算法和新的机器学习算法都可以作为智能博

弈领域补充完善的技术力量。本文以作战推演技术

需求为牵引,结合国内外游戏AI、兵棋推演相关实

际发展情况,总结出虽然智能博弈依然还有很多难

题需要解决,现有技术实现程度相比于实际应用还

有较大差距,但智能博弈这一研究方向是未来智能

决策研究发展的必由之路,相信最终会在各个相关

领域得以实现。

参考文献:

[1]沈宇,韩金朋,李灵犀,等.游戏智能中的AI:从多角色博弈到平

行博弈[J].智能科学与技术学报,2020,2(3):205-213.

SHENY,HANJP,LILX,meintelligence—frommul-

ti-rolegametoparallelgame[J].ChineJournalofIntelligentScience

andTechnology,2020,2(3):205-213.

[2]胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].

科技导报,2017,35(21):49-60.

HUXF,HEXY,o’sbreakthroughandchallengesof

wargaming[J].Science&TechnologyReview,2017,35(21):49-60.

[3]叶利民,龚立,刘忠.兵棋推演系统设计与建模研究[J].计算机与

数字工程,2011,39(12):58-61.

YELM,GONGL,chandmodelingofarehearsal

systemofnavalbattle[J].Computer&DigitalEngineering,2011,

39(12):58-61.

[4]谭鑫.基于规则的计算机兵棋系统技术研究[D].长沙:国防科学

技术大学,2010.

chonrule-badcomputerwargamesystemtechnolo-

gy[D].Changsha:NationalUniversityofDefenTechnology,2010.

[5]胡晓峰,齐大伟.智能决策问题探讨——从游戏博弈到作战指挥,

距离还有多远[J].指挥与控制学报,2020,6(4):356-363.

HUXF,lemsofintelligentdecision-making—how

farisitfromgame-playingtooperationalcommand[J].Journalof

CommandandControl,2020,6(4):356-363.

[6]YEDH,CHENGB,ZHAOPL,idlearningachieves

human-levelperformanceinMOBAgames:acastudyofhonorof

kings[J].IEEETransactionsonNeuralNetworksandLearningSys-

tems,2020:1-11.

[7]FUHT,TANGHY,HAOJY,lti-agentreinforcement

learningwithdiscrete-continuoushybridactionspaces[C]//Proceedingsof

-

ifornia:InternationalJointConferencesonArtificialIntelligenceOr-

ganization,2019.

[8]WANGXJ,SONGJX,QIPH,:anefficientdeeprein-

forcementlearningagentmasteringthegameofStarCraftII[J].arXiv

preprint,2020,arXiv:2012.13169.

[9]周超,胡晓峰,郑书奎,等.战略战役兵棋演习系统兵力聚合问题

研究[J].指挥与控制学报,2017,3(1):19-26.

ZHOUC,HUXF,ZHENGSK,ntegrationinstrategic

andoperationalwar-gamemaneuversystem[J].JournalofCommand

andControl,2017,3(1):19-26.

[10]黄凯奇,兴军亮,张俊格,等.人机对抗智能技术[J].中国科学:

信息科学,2020,50(4):540-550.

HUANGKQ,XINGJL,ZHANGJG,igenttechnologies

ofhuman-computergaming[J].ScientiaSinica(Informationis),2020,

50(4):540-550.

[11]LIUX,ZHAOMJ,DAIS,alintentionrecognitionin

wargame[C]//Proceedingsof2021IEEE6thInternationalConference

away:IEEEPress,

2021:429-434.

[12]SUNYX,YUANB,ZHANGT,chandimplementation

ofintelligentdecisionbadonaprioriknowledgeandDQNalgo-

rithmsinwargameenvironment[J].Electronics,2020,9(10):1668.

[13]陈希亮,李清伟,孙彧.基于博弈对抗的空战智能决策关键技

术[J].指挥信息系统与技术,2021,12(2):1-6.

CHENXL,LIQW,hnologiesforaircombatintelli-

gentdecisionbadongameconfrontation[J].CommandInformation

SystemandTechnology,2021,12(2):1-6.

[14]孙彧,李清伟,徐志雄,等.基于多智能体深度强化学习的空战博

弈对抗策略训练模型[J].指挥信息系统与技术,2021,12(2):16-20.

SUNY,LIQW,XUZX,nfrontationstrategytraining

modelforaircombatbadonmulti-agentdeepreinforcementlearn-

ing[J].CommandInformationSystemandTechnology,2021,12(2):

16-20.

[15]瞿崇晓,高翔,夏少杰,等.一种基于深度强化学习的无监督智能

作战推演系统:CN109636699A[P].2019.

QUCX,GAOX,XIASJ,rvidintelligentcombatdeduc-

tionsystembadondeepreinforcementlearning:CN109636699A[P].

2019.

[16]张振,黄炎焱,张永亮,等.基于近端策略优化的作战实体博弈对

抗算法[J].南京理工大学学报,2021,45(1):77-83.

ZHANGZ,HUANGYY,ZHANGYL,entityconfronta-

tionalgorithmbadonproximalpolicyoptimization[J].Journalof

NanjingUniversityofScienceandTechnology,2021,45(1):77-83.

[17]李琛,黄炎焱,张永亮,等.Actor-Critic框架下的多智能体决策方

法及其在兵棋上的应用[J].系统工程与电子技术,2021,43(3):

755-762.

LIC,HUANGYY,ZHANGYL,-agentdecision-making

methodbadonActor-Criticframeworkanditsapplicationinwar-

game[J].SystemsEngineeringandElectronics,2021,43(3):755-762.

[18]程恺,陈刚,余晓晗,等.知识牵引与数据驱动的兵棋AI设计及关

键技术[J].系统工程与电子技术,2021,43(10):2911-2917.

CHENGK,CHENG,YUXH,dgetractionandda-

ta-drivenwargameAIdesignandkeytechnologies[J].SystemsEngi-

neeringandElectronics,2021,43(10):2911-2917.

[19]张可,郝文宁,余晓晗,等.基于遗传模糊系统的兵棋推演关键点

推理方法[J].系统工程与电子技术,2020,42(10):2303-2311.

ZHANGK,HAOWM,YUXH,ekeypointreasoning

methodbadongeneticfuzzysystem[J].SystemsEngineeringand

Electronics,2020,42(10):2303-2311.

[20]李航,刘代金,刘禹.军事智能博弈对抗系统设计框架研究[J].火

力与指挥控制,2020,45(9):116-121.

LIH,LIUDJ,ecturedesignrearchofmilitaryintelli-

gentwargamesystem[J].FireControl&CommandControl,2020,

45(9):116-121.

[21]施伟,冯旸赫,程光权,等.基于深度强化学习的多机协同空战方

法研究[J].自动化学报,2021,47(7):1610-1623.

SHIW,FENGYH,CHENGGQ,chonmulti-aircraft

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·171·

cooperativeaircombatmethodbadondeepreinforcementlearn-

ing[J].ActaAutomaticaSinica,2021,47(7):1610-1623.

[22]徐佳乐,张海东,赵东海,等.基于卷积神经网络的陆战兵棋战术

机动策略学习[J].系统仿真学报,2021:已录用.

XUJL,ZHANGHD,ZHAODH,almaneuverstrategy

learningofwargamebadonconvolutionalneuralnetwork[J].Jour-

nalofSystemSimulation,2021:acceped.

[23]WANGHN,LIUN,ZHANGYY,inforcementlearning:

asurvey[J].FrontiersofInformationTechnology&ElectronicEngi-

neering,2020,21(12):1726-1744.

[24]MNIHV,KAVUKCUOGLUK,SILVERD,-levelcon-

trolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):

529-533.

[25]SILVERD,HUANGA,MADDISONCJ,ingthegame

ofGowithdeepneuralnetworksandtreearch[J].Nature,2016,

529(7587):484-489.

[26]SILVERD,SCHRITTWIESERJ,SIMONYANK,ingthe

gameofGowithouthumanknowledge[J].Nature,2017,550(7676):

354-359.

[27]VINYALSO,BABUSCHKINI,CZARNECKIWM,-

masterlevelinStarCraftIIusingmulti-agentreinforcementlearning[J].

Nature,2019,575(7782):350-354.

[28]BERNERC,BROCKMANG,CHANB,2withlargescale

deepreinforcementlearning[J].arXivpreprint,2019,arXiv:1912.06680.

[29]BROWNN,umanAIformultiplayerpok-

er[J].Science,2019,365(6456):885-890.

[30]SCHRITTWIESERJ,ANTONOGLOUI,HUBERTT,-

ingAtari,Go,chessandshogibyplanningwithalearnedmodel[J].

Nature,2020,588(7839):604-609.

[31]pactdoVRcontrollershaveonthetraditional

strategygamegenre[D].Huddersfield:UniversityofHuddersfield,

2019.

[32]DAVIDAS,rcingdeterrenceonNATO’ast-

ernflank:wargamingthedefenofthebaltics[R].2016.

[33]CANNONCT,onvolutionneuralnetworksto

developrobustcombatbehaviorsthroughreinforcementlearning[D].

CA:NavalPostgraduateSchool,2021.

[34]缐珊珊.美俄人工智能军事应用发展分析[J].大数据,2020,6(4):

125-132.

ysisofthemilitaryapplicationanddevelopment

pathofartificialintelligenceintheUnitedStatesandRussia[J].Big

DataRearch,2020,6(4):125-132.

[35]TARRAFDC,GILMOREJM,rimentintactical

wargamingwithplatformnabledbyartificialintelligence[R].2020.

[36]YEDH,LIUZ,SUNMF,ingcomplexcontrolinMOBA

gameswithdeepreinforcementlearning[J].ProceedingsoftheAAAI

ConferenceonArtificialIntelligence,2020,34(4):6672-6679.

[37]BROCKMANG,CHEUNGV,PETTERSSONL,

gym[J].arXivpreprint,2016,arXiv:1606.01540.

[38]ARULKUMARANK,CULLYA,tar:anevolu-

tionarycomputationperspective[C]//ProceedingsoftheGeneticand

EvolutionaryComputationConferenceCompanion.[S.l.:s.n.],2019:

314-315.

[39]YEDH,CHENGB,ZHANGW,splayingfullMOBA

gameswithdeepreinforcementlearning[J].arXivpreprint,2020,ar-

Xiv:2011.12692.

[40]MNIHV,KAVUKCUOGLUK,SILVERD,gatariwith

deepreinforcementlearning[J].arXivpreprint,2013,arXiv:1312.

5602.

[41]张凯峰,俞扬.基于逆强化学习的示教学习方法综述[J].计算机研

究与发展,2019,56(2):254-261.

ZHANGKF,ologiesforimitationlearningviainver

reinforcementlearning:areview[J].JournalofComputerRearch

andDevelopment,2019,56(2):254-261.

[42]曹雷.基于深度强化学习的智能博弈对抗关键技术[J].指挥信息

系统与技术,2019,10(5):1-7.

hnologiesofintelligentgameconfrontationbadon

deepreinforcementlearning[J].CommandInformationSystemand

Technology,2019,10(5):1-7.

[43]RISIS,DeepMind’sAlphaStarAIthatreached

grandmasterlevelinStarCraftII[J].KI-KünstlicheIntelligenz,2020,

34(1):85-86.

[44]SILVERD,-CarloplanninginlargePOMDPs[C]//

ProceedingsoftheAdvancesinNeuralInformationProcessingSys-

tems23.[S.l.:s.n.],2010.

[45]GOODMANJ,matterhowwellIknowwhat

you’rethinking?OpponentmodellinginanRTSgame[C]//Proceedings

away:

IEEEPress,2020:1-8.

[46]ingthesizeoflargeno-limitpokergames[J].

arXivpreprint,2013,arXiv:1302.7008.

[47]DUGASD,NIETOJ,SIEGWARTR,:unsupervid

reprentationsforreinforcementlearningofrobotnavigationindy-

namichumanenvironments[C]//Proceedingsof2021IEEEInterna-

away:IEEE

Press,2021:7829-7835.

[48]ONTANÓNS,SYNNAEVEG,URIARTEA,yof

real-timestrategygameAIrearchandcompetitioninStarCraft[J].

IEEETransactionsonComputationalIntelligenceandAIingames,

2013,5(4):293-311.

[49]FENNERSA,atorialgamecomplexity:anintro-

ductionwithpotgames[J].arXivpreprint,2015,arXiv:1505.07416.

[50]SUTTONRS,rcementlearning:anintroduc-

tion[J].IEEETransactionsonNeuralNetworks,2005,16(1):285-286.

[51]VANHASSELTH,GUEZA,inforcementlearn-

ingwithdoubleq-learning[C]//Proceedingsofthe30thAAAIConfe-

away:IEEEPress,2016.

[52]SCHAULT,QUANJ,ANTONOGLOUI,tizedexperience

replay[J].arXivpreprint,2015,arXiv:1511.05952.

[53]WANGZY,SCHAULT,HESSELM,gnetworkarchi-

tecturesfordeepreinforcementlearning[J].arXivpreprint,2015,ar-

Xiv:1511.06581.

[54]MNIHV,BADIAAP,MIRZAM,ronousmethodsfor

deepreinforcementlearning[C]//Proceedingsofthe33rdInterna-

tionalConferenceonMachineLearning.[S.l.:s.n.],2016:

1928-1937.

[55]刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状

综述[J].智能科学与技术学报,2020,2(4):314-326.

LIUZY,MUCX,viewonalgorithmsandapplica-

tionsofdeepreinforcementlearning[J].ChineJournalofIntelligent

ScienceandTechnology,2020,2(4):314-326.

[56]LILLICRAPTP,HUNTJJ,PRITZELA,uouscontrol

·172·智能科学与技术学报第4卷

withdeepreinforcementlearning[J].arXivpreprint,2015,arXiv:

1509.02971.

[57]LOWER,WUY,TAMARA,-agentactor-criticformixed

cooperative-competitiveenvironments[C]//ProceedingsoftheAdvancesin

NeuralInformationProcessingSystems30.[S.l.:s.n.],2018.

[58]SCHULMANJ,WOLSKIF,DHARIWALP,alpolicy

optimizationalgorithms[J].arXivpreprint,2017,arXiv:1707.06347.

[59]HAARNOJAT,ZHOUA,ABBEELP,tor-critic:

off-policymaximumentropydeepreinforcementlearningwithasto-

chasticactor[C]//ProceedingsoftheInternationalConferenceonMa-

chineLearning.[S.l.:s.n.],2018:1861-1870.

[60]FUJIMOTOS,VANHOOFH,singfunctionapproxi-

mationerrorinactor-criticmethods[C]//ProceedingsoftheInternational

ConferenceonMachineLearning.[S.l.:s.n.],2018:1587-1596.

[61]FLORENSAC,DUANY,sticneuralnetworksfor

hierarchicalreinforcementlearning[J].arXivpreprint,2017,arXiv:

1704.03012.

[62]RAFATIJ,ngreprentationsinmodel-free

hierarchicalreinforcementlearning[J].ProceedingsoftheAAAICon-

ferenceonArtificialIntelligence,2019,33:10009-10010.

[63]PANGZJ,LIURZ,MENGZY,forcementlearningfor

full-lengthgameofStarCraft[J].ProceedingsoftheAAAIConference

onArtificialIntelligence,2019,33:4691-4698.

[64]LISY,WANGR,TANGMX,chicalreinforcement

learningwithadvantage-badauxiliaryrewards[J].arXivpreprint,

2019,arXiv:1910.04450.

[65]HOCHREITERS,ort-termmemory[J].

NeuralComputation,1997,9(8):1735-1780.

[66]wofevolutionaryartificialneuralnetworks[J].

InternationalJournalofIntelligentSystems,1993,8(4):539-567.

[67]DINGSF,LIH,SUCY,ionaryartificialneuralnet-

works:areview[J].ArtificialIntelligenceReview,2013,39(3):

251-260.

[68]YAOX,olutionarysystemforevolvingartificial

neuralnetworks[J].IEEETransactionsonNeuralNetworks,1997,8(3):

694-713.

[69]SALIMANST,HOJ,CHENX,ionstrategiesasascala-

blealternativetoreinforcementlearning[J].arXivpreprint,2017,ar-

Xiv:1703.03864.

[70]SUCHFP,MADHAVANV,CONTIE,uroevolution:

geneticalgorithmsareacompetitivealternativefortrainingdeepneur-

alnetworksforreinforcementlearning[J].arXivpreprint,2017,ar-

Xiv:1712.06567.

[71]栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,

30(9):94-96,105.

LUANLH,dyondecisiontreeclassificationtech-

niques[J].ComputerEngineering,2004,30(9):94-96,105.

[72]鲁大剑.面向作战推演的博弈与决策模型及应用研究[D].南京:

南京理工大学,2013.

chongameanddecisionmodelforoperationaldeduction

anditsapplication[D].Nanjing:NanjingUniversityoftechnology,2013

[73]尹星,孙鹏,韩冰.基于决策树的作战实体行为规则建模[J].指挥

控制与仿真,2020,42(1):15-19.

YINX,SUNP,ngofbehaviorrulesofcombatentities

badondecisiontree[J].CommandControl&Simulation,2020,

42(1):15-19.

[74]ZHOUZH,rest[J].NationalScienceReview,2019,

6(1):74-86.

[75]董浩洋,张永亮,齐宁,等.基于综合势能的作战行动序列生成方

法研究[J].军事运筹与系统工程,2020,34(3):11-18.

DONGHY,ZHANGYL,QIN,chonthemethodof

generatingoperationalquencebadoncomprehensivepotential

energy[J].MilitaryOperationsRearchandSystemsEngineering,

2020,34(3):11-18.

[76]forests[J].Machinelearning,2001,45(1):5-32.

[77]DEMESENTIERSILVAF,TOGELIUSJ,LANTZF,ting

noviceheuristicsforpost-floppoker[C]//Proceedingsof2018IEEE

away:

IEEEPress,2018:1-8.

[78]周献中,郭庆军,鞠恒荣.基于人件服务的C4ISR服务视点扩展[J].

指挥信息系统与技术,2016,7(5):1-9.

ZHOUXZ,GUOQJ,edC4ISRrviceviewpoint

badonhumanwarervice[J].CommandInformationSystemand

Technology,2016,7(5):1-9.

[79]朱咸军,周献中,王友发,等.面向新型决策系统的人件模型

研究[J].中国科技论坛,2016(6):121-127.

ZHUXJ,ZHOUXZ,WANGYF,chonhumanware

modelofnoveldecisionsystem-oriented[J].ForumonScienceand

TechnologyinChina,2016(6):121-127.

[80]LUCASSimon,沈甜雨,王晓,等.基于统计前向规划算法的游戏

通用人工智能[J].智能科学与技术学报,2019,1(3):219-227.

SIMONL,SHENTY,WANGX,lgameAIwithstatis-

ticalforwardplanningalgorithms[J].ChineJournalofIntelligent

ScienceandTechnology,2019,1(3):219-227.

[81]SHAOK,ZHUYH,aftmicromanagementwith

reinforcementlearningandcurriculumtransferlearning[J].IEEE

TransactionsonEmergingTopicsinComputationalIntelligence,2019,

3(1):73-84.

[82]SILVERD,HUBERTT,SCHRITTWIESERJ,alrein-

forcementlearningalgorithmthatmasterschess,shogi,andGo

throughlf-play[J].Science,2018,362(6419):1140-1144.

[83]TANGZT,ZHUYH,ZHAODB,edrollinghorizon

evolutionalgorithmwithopponentmodellearning[J].IEEETransac-

tionsonGames,2020:1.

[84]杨旭,王锐,张涛.面向无人机集群路径规划的智能优化算法

综述[J].控制理论与应用,2020,37(11):2291-2302.

YANGX,WANGR,ofunmannedaerialvehicle

swarmpathplanningbadonintelligentoptimization[J].Control

Theory&Applications,2020,37(11):2291-2302.

[85]张菁,何友,彭应宁,等.基于神经网络和人工势场的协同博弈路

径规划[J].航空学报,2019,40(3):322493.

ZHANGJ,HEY,PENGYN,networkandartificial

potentialfieldbadcooperativeandadversarialpathplanning[J].Acta

AeronauticaetAstronauticaSinica,2019,40(3):322493.

[86]LEED,TANGHR,ZHANGJO,rarchitecturefor

StarCraftIIwithdeepreinforcementlearning[C]//Proceedingsofthe

AAAIConferenceonArtificialIntelligenceandInteractiveDigital

Entertainment.[S.l.:s.n.],2018.

[87]cientagentcreatedinStarcCraft2using

pysc2[J].TurkishJournalofComputerandMathematicsEducation

(TURCOMAT),2021,12(10):336-342.

第2期孙宇祥等:智能博弈综述:游戏AI对作战推演的启示·173·

[作者简介]

孙宇祥(1990−),男,南京大学工程管理

学院博士生,主要研究方向为智能博弈与作

战推演。

彭益辉(1995−),男,南京大学工程管理

学院硕士生,主要研究方向为多智能体深度

强化学习技术。

李斌(1998−),男,南京大学工程管理学

院硕士生,主要研究方向为分层强化学习及

智能博弈。

周佳炜(1997−),男,南京大学工程管理

学院硕士生,主要研究方向为深度强化学习

算法设计。

张鑫磊(1996−),男,南京大学工程管理

学院硕士生,主要研究方向为智能体多通道

人机交互及智能博弈。

周献中(1962−)男,博士,南京大学工程

管理学院教授,主要研究方向为混合智能

系统协作与任务规划、指挥与控制系统理

论与技术等。


本文发布于:2022-11-15 12:34:49,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/82/486826.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:对抗
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图