首页 > 英文翻译

纳什均衡解

更新时间:2022-12-31 17:48:14 阅读：评论：0

2022年12月31日发(作者：广泛的英文)

第四章完全信息动态博弈及其均衡解

1.完全且完美信息动态博弈

完全信息博弈指的是参与者的收益是共同知识。

完全且完美信息动态博弈指的是：博弈中的每一步中参与人都知道这一步之前博弈进行

的整个过程。因此，我完全且完美信息动态博弈的特点：（1）行动是顺序发生的；（2）下

一步行动选择之前所有以前的行动都可以被观察到；（3）每一可能的行动组合下的参与人

的收益都是公共知识。

而不完美信息博弈指的是，在某一步参与人不知道以往博弈所进行的历史或者没有观察

到以往的所有行动。

例4.1．我们来考虑这样一个动态博弈:假定甲在开采一个价值4万元的金矿时需要1

万元资金，乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段，甲向乙承诺:如

果乙借钱给他的话，那么他就会将采到的金子与乙对半分成，即(2，3)——乙得到2万元的

金子，同时收回自己的1万元投资。对于甲的承诺，乙如果不借钱给甲的话，那么博弈到此

为止，双方收益为(0，1)。如果乙借钱给甲的话，那么博弈进入第二个阶段。在第二阶段中，

若甲遵守他的承诺，分给乙一半的金子，这样两人的收益为(2，3)，其中1万元为投资成本。

〖JP3〗然而，若甲违背自己的承诺，博弈就会进入到第三个阶段:如果乙同甲打官司，那

么由于打官司费时费力，两个人的收益为(0，1)；若乙不打官司，那么两个人的收益就为

(5，0)。参见图1。

乙

借不借

甲

分不分（0，1）

乙乙

（2，3）打官司不打官司

（1，2）（5，0）

图1.借钱博弈的博弈树

2.逆向归纳法与子博弈纳什均衡解

逆向归纳法（Backwardinduction）又称逆推法，是指这样一种动态博弈求解方法：从

博弈的最后一步开始，计算最后一步的参与人的最优行动，逐步逆推到博弈开始时进行第一

步的参与人的最优行动，从而确定每个参与人的最优行动。

在动态博弈中逆向归纳法能够进行的前提：参与人是理性的——任何一步参与人都选择

甲

乙

最优策略；理性是公共知识——参与人选择最优策略是其他人所能够预测的。

在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。

乙

借╳不借

甲

分╳不分（0，1）

乙乙

（2，3）打官司╳不打官司

（1，2）（5，0）

图2.借钱博弈的逆向归纳法的求解过程

在例4.1中这样一个动态博弈，用逆向归纳法，我们就可以推知，如果甲做出“不分”

的选择，那么乙一定会选择“打”官司。因为对于乙而言，打官司的收益为1，不打官司的

收益是0，所以，作为一个理性人，乙一定会选择打官司。而如果甲知道在“不分”的情况

下乙必定选择“打官司”，那么甲就一定会选择“分”一半的金子给乙，因为对甲而言，“分”

的收益是2，“不分”的收益是0。所以，甲的承诺是可置信的。而对于乙来说，他会选择“借”，

因为“借”的收益是3，“不借”的收益是1。因此，该博弈最终的子博弈精炼纳什均衡点就

是(2，3)。

例4.2.斯坦克尔伯模型。

两个厂商垄断某个市场，其中厂商1处于支配地位，它先行动，然后从属企业2后行动。

假定市场需求函数为p=a-Q。厂商的单位产品的成本c。这些是企业1和2的公共知识。问：

厂商1和2是如何决定的它们的生产产量的。

假定厂商1和2所决定的产量分别为q1,q2。

我们用逆向归纳法来求解。企业2后行动，对于企业1的任何行动，即任意给定的产量，

企业2确定产量以使利润最大，即使L2=p×q2-c×q2最大。假定企业1决定的产量为q1，因

为：L2=p×q2-c×q2=（a-q1-q2）×q2-c×q2

由dL2/dq2=0:

q1-2q2=a-c(1)

甲

乙

即：q2=(q1-a+c）/2

企业1先行动，它能够预知企业2的最优化行为，即在它的最优产量q1给定的情况下，

企业将按照q2=(q1-a+c）/2进行决策。这样，企业的利润函数为：L1=p×q1-c×q1=（a-q1-q2）

×q1-c×q1=（a-q1-q2）×q1-c×q1而q2是q1如下的函数：

q2=(q1-a+c）/2

由dL1/dq1=0:

*=(a-c）/2

于是，

*=(a-c）/4

因此，（(a-c）/2，(a-c）/4)为逆向归纳法解。该解被称为子博弈精炼纳什均衡解。

此时总产量为q2=3(a-c）/4，价格为(a+3c)/4

企业1的利润L1=(a-c)2/8

企业2的利润为L2=(a-c)2/16

请读者与古诺均衡解进行比较。

3.动态博弈中的威胁与承诺

为了实现最大利益，使博弈在博弈参与人所希望的策略组合上实现，在他人作出

行动之前的每一步参与人都会向对方可能做出某种威胁或承诺，希望对方做出或者不

做出某个行动。而通过逆向归纳法我们能够区别动态博弈中威胁或承诺是否可信。

例4.1：甲向乙承诺：借钱给我，我赚钱后将分给你。甲的承诺是可信的。

乙威胁甲：若你不分给我，我将起诉你。乙的威胁也是可信的。

之所以发生威胁与承诺的言语现象，是因为轮到他人行动的时候，参与人只能通

过言语而影响他人的行动从而实现自己希望的结果。甲之所以承诺，是因为他希望乙

能够“借钱”给他。同样，而乙之所以进行威胁，是因为他借钱之后，希望甲能够连

本带利将钱给乙。

当然，在博弈论中因为参与人是理性人，威胁与承诺是否可置信能够被确认。这

样任何威胁与承诺都是没有意义的：若是不可置信，它是公共知识，又何必做这样的

威胁或承诺；若是可置信的，因为该博弈是完全且完美信息博弈，做出这样的威胁与

承诺也是无益的。

但是在实际生活中，做出这样的威胁与承诺是有意义的，因为，人们不一定认为

对方是完全理性人，而认为会发生某种“偏离”：或者会受言语的影响，而“忘记”

应该按照计算的行动进行，或者相信了对方的承诺或威胁而改变了原来的行动选择；

等等。

4.理性的困境：蜈蚣博弈与最后通牒博弈

逆向归纳法是从动态博弈的最后一步往回推，以求解动态博弈的均衡结果。它是

完全归纳推理，其推理是演绎的，即结论是必然的。逆向归纳法在逻辑上是严密的，

然而它存在着“困境”。

逆向归纳法的逻辑严密性毋庸置疑。然而，当我们分析一个特殊的博弈——蜈蚣博弈—

—的时候，一个违背直觉的悖论出现了，这个悖论被认为是对逆向归纳法的挑战。

蜈蚣博弈（centipedegame）为罗森塔尔（hal）在1981年提出，我们这里采

取的是奥曼（Aumann，1998）论文中的形式1。

安娜鲍伯安娜鲍伯安娜鲍伯2n+2

2n+1

21432n2n-1

14362n-12n+2

图8-2蜈蚣博弈

这个博弈有两个参与人，安娜和鲍伯。该博弈从安娜开始，她有两个策略“合作”和“不

合作”，若她选择“不合作”，博弈即刻终止，安娜得到2，鲍伯得到1；若她选择“合作”，

那么博弈继续进行，由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第

二轮选择中，若鲍伯选择“不合作”，博弈终止，选择“合作”，博弈继续进行……在这个博

弈最后一轮，即第2n轮，若鲍伯选择“不合作”，他所得2n+1，安娜得2n-1；若他选择“合

作”，鲍伯得2n+1安娜得2n+2。

因这个博弈树形状像蜈蚣，因而被称为蜈蚣博弈。

在这里我们假定了，总的步数2n是一个双方都知道的有限数。严格地说，我们假定了，

该博弈的总步数2n为双方的公共知识（commonknowledge）。

我们用逆向归纳法来分析这个博弈的结果：在最后一步，鲍伯在“合作”与“不合作”

中进行选择时，因为“不合作”带给他的好处是2n+2，而“合作”的好处是2n+1，选择“不

合作”的好处大于“合作”的好处，鲍伯应当选择“不合作”。在倒数第二步，安娜这样想，

选择“不合作”的好处是2n；而选择“合作”，在下一步鲍伯肯定会选择“不合作”，此时

她的好处将是2n-1，因此在这倒数第二步安娜的理性选择“不合作”……通过这样的分析，

在这个博弈的第一步安娜的理性的选择是“不合作”。

这样，这个博弈的结果是，在博弈的第一步安娜选择“不合作”，博弈即终止。这一点

构成蜈蚣博弈的完美纳什均衡点。在这个点上，安娜得到支付2，而鲍伯得到支付1。

这样的结果是反直觉的：最大化自己支付的理性人其所得是不合理的。从这个博弈树来

看，若他们均选择“合作”，双方的支付将会很高。但根据逆向归纳法，这个结果达不到。

在这个博弈中，每个人考虑到未来他人不合作，自己先采取不合作。因在最后一步理性

的参与人必定采取不合作，每个人的考虑是有逻辑基础的。于是，一个违反直觉的糟糕结果

便出现了。这便是动态不合作。

对于蜈蚣博弈的这个逆向归纳法解，博弈论专家中存在赞成和反对两种观点。著名的博

弈论专家奥曼（）认为，如果“策略人是理性的”是双方的公共知识，逆向归

纳法的解必然要达到。

英国伦敦经济学院的宾谟（e）教授则认为，在蜈蚣博弈的开始存在混合策略

的可能，即在博弈的开始安娜有采取“合作”的非零概率，而轮到鲍伯，他同样有采取“合

1Aumann,thecentipedeGame[J].GamesandEconomicBehavior,1998,vol

23,pp97-105.

作”策略的非零概率。因此，在宾谟看来，该博弈终止于第一步不是必然的。2

本人认为，在最后一步鲍伯合作的概率必然为0，逆推到第一步，安娜的合作概率也必

然为0。这样，宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。

逆向归纳法悖论依然存在。

最后通牒博弈。参与人1和2分一笔钱，如100元，1提出分配方案，2表决。如果参

与人1所提出的分配方案得到参与人2的同意，就按照该分配方案分配；如果参与者2拒绝，

双方都将一无所获。

逆向归纳法解：

6.完全非完美信息动态博弈

博弈的扩展式表达

囚徒1

合作不合作

囚徒2囚徒2

合作不合作合作不合作

（3,3）（4,1）（1，4）（2,2）

6.子博弈纳什均衡解与进化稳定策略

在博弈论、行为生态学及演化心理学中，演化稳定策略ESS是一个这样的策

略，一旦它被给定环境中的参与人群体采用，它不能被任何其他可能的策略所侵

略。一个ESS是纳什均衡的精炼。它是演化稳定的纳什均衡：一旦它在一个种群

中得到确认，自然选择本身足以放防止变异的可能策略侵略成功。

演化稳定策略在博弈论证是一个中心概念，它由JohnMaynardSmith和George

在1973首先给出，并被用于人类学、演化心理学、哲学和政治科学之中。

进化稳定策略依赖于侵略的概念。一个X-策略参与人的群体被Y策略的参与

人所造访。如果新的参与人使用Y策略比X-策略的参与人得分更高，他被认为

是侵略的。假定参与人能够选额和变换策略，这会导致原来的种群开始走向Y

策略。

一个策略X是进化稳定的，如果没有策略Y能够侵略到它。也就是是，采取新策略的

物种来到X-策略的种群平均来说将不会获得比X策略的参与人更好的收益。MaynardSmith

2Binmore,ndEconomic

Behavior,1996,vol17,pp138-146.

与Price[1]给出了ESS策略的条件：一个策略S是ESS:forallT≠S，或者E(S,S)>E(T,S),

或者E(S,S)=E(T,S)且E(S,T)>E(T,T)。

纳什均衡与ESS的区别。在囚徒困境中是同一的。在“伤害邻居”的博弈中，（A,A）

（B,B）都是纳什均衡，但只有是一个ESS（强纳什均衡）。A则不是，因此B能够中性地侵

略到A策略家的群体之中并占优势（predominate），因为B对抗B得分高于A对抗B对抗

B的得分。

C3,31,4

D4,12,2

囚徒困境

A2,21,2

B2,12,2

伤害邻居

在鹰鸽博弈中混合策略为一个ESS。

7.现实的动态博弈解读

谢林的核武器理论。

黑格尔：存在就是合理的。

拓展均衡解的扩展

1.纳什均衡作为博弈预测的局限

博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测，预测博

弈参与人的策略选择及博弈结果。然而，当一个博弈包含不止一个纳什均衡时，我们往往无

法对之预测。

为了解决这个问题，博弈论专家坐了许多尝试。

2.谢林的聚点均衡

焦点效应。在一个具有多重均的博弈中，某些事情使得一个博弈的参与人将注意力集

中到一个均衡，使他们预期并实现这个均衡，这便是谢林所说的焦点效应。

一个焦点均衡（focalequilibrium）就是一个具有某种使它显著地区别于所有其他均

衡之性质的均衡。

焦点又称为谢林点（Schellingpoint），这一概念最早由诺贝尔奖获得者谢林于1960

年在《冲突的策略》一书中提出：“人们如果得知别人也正试图做出和自己同样的行为时，

常常能使他们的意图或期望达成一致。大多数情况——或许每一种情况都能为此种博弈参与

人的合作提供一些线索，为每个人的期望提供‘聚点’（focalpoint），其中每个人的期望

是别人期望他期望被期望去做的事。”3也就是说，聚点是在协调博弈中博弈参与人通过相互

期望所做出的共同选择形成的那个均衡点，它显示出了博弈中人们在没有沟通的情况下的共

同选择倾向。

芬斯特（MaierFenster，1995）等人给出了一个明确的定义：给定一个问题和可能解

的集合，参与人必须从解集合中选择一个，聚点就是参与人所选的最突出的那个解。4

谢林曾经有过这样的实验：

“请选择下列数字中的一个，如果你们的选择相同，你们都将获胜。”

实验结果是在41人中37人选择了前三项，7略微领先于100，13位于第三位。5可以看

出，在这三项中，选择人数按数字排列的位置呈递降趋势。在谢林的实验中，聚点在选择第

一个数上形成，协调博弈的结果与被选择对象呈现的次序有关。“如果问到在所有正数当中

哪个是最明显独特的，或者什么样的选择规则将导致明确结果，人们将会受到这种事实的强

烈影响：即最普遍的选择是‘第一个’或‘最小’的那个正数。”6

谢林进行的其他一系列实验也验证了这种“位置优先性”：在“正面”和“反面”二者

之间，聚点在选择“正面”形成；在十六个方块列成的矩阵之间，聚点在选择第一个方块时

形成。7从谢林的实验可以看出，在无差异的选择对象之间，被试往往倾向于选择位置处于

第一个的对象。这似乎暗示着，人们可以利用被选择对象呈现的次序来控制选择的结果。如

果这是唯一的结论，那么这在具体的运用中，会出现许多令人沮丧的结果。比如，在选举时，

人们可以利用排名的先后来进行某种暗示。然而，令人欣喜的是，我们的实验结果与之完全

不同，从附表3可以看出，聚点偏离了第一个数的位置，在选择位于第三的数字上形成。聚

点发生了变迁！在这里，聚点的形成与位置无关，也就是说，博弈的结果不再与数字呈现的

次序有关。

对于协调博弈的结果，谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理，或

许依靠来自双方对相似事物之间的类比经验、先例、偶然巧遇、对称性、审美观或几何原理、

诡辩推理，以及当事人的自身条件和对彼此情况的了解。8巴卡拉克（Bacharach）,萨登

（Sugden）和詹森（Jansn）等人也持有类似的观点，他们认为，在很多情况下，聚点

来自于直觉。9然而，从我们的实验结果看来，人们的选择并没有排除逻辑思维推理。

3.焦点均衡的一个实验

在群体生活中，许多行动可以通过约定(convention)来达到一致。当一个群体中的每个

ing,dUniversityPress,1960,pp:57.

r,chein,CoordinationwithoutCommunication:Experimental

.1995,pp:102.

ing,dUniversityPress,1960,pp:56.

ing,dUniversityPress,1960,pp:94.

ing,dUniversityPress,1960,pp:56.

ing,dUniversityPress,1960,pp:57.

s,ndEconomicBehavior,Volume32,

Issue2,2000,pp:263.

人遵守某些原则，从而使其他群体中的每个人也遵守这些原则时，就出现了约定。10在协调

博弈中，如果有约定，某些行动规则便成为公共知识，协调博弈的难题就迎刃而解了。这里

所指的公共知识（commonknowledge），是指对于一个命题，某个群体中的每个人都知道它，

每个人知道每个人知道它，……等等。

然而在许多协调博弈中，没有约定作为相应的博弈参与人进行行动选择的依据，当然沟

通也是不可能的，在这样的情况下，人们又是怎样行动的呢？为了探寻在没有约定的情况下

现实生活中人们是如何协调行动的，我们进行了一个关于协调博弈的实验：

请从‘2、7、8、9’这4个数字中选出一个数字，若你所选的数字为在座的同学中最多

的人所选的，那么你将是获胜者，请解释你的选择。

该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一，即该实

验是在考试中进行的（本题略带欺骗的性质，因为学生预先不知道该题做任何选择都给满分）。

实验总人数：167人。在实验之前，学生没有听说过该类测试，在实验中学生之间没有任何

交流。

表1

数字2789其他

人数54158675

比例（%）32.34%8.98%51.50%4.192.99%%

图1

实验数据如附表1所示，有51.50%的人“不约而同”地选择了“8”。按照题意，选“8”

的人为胜出者。再进一步考察选“8”的理由可以看出，选“8”的86个答案中，有69个是

根据公共知识进行推理得出的。他们的理由是：“8”在中国人心中有特殊意义，人们对8

代表“发”了解最为广泛，买车牌号码、电话号码等都喜欢带8的，寓发财发达之意、是国

人喜欢的吉利数字、幸运发财之数，这是公共知识。

这个实验是一个多数人参与的一次性协调博弈，在实验中，学生没有对哪个数字有过约

定，每个数字被选择的几率“应当”是均等的。我们可以将该博弈设想为一个参与者与其他

参与者之间的两方博弈（参与人A与参与人B之间的博弈），因此它可以还原为如附表2所

示的数字选择协调博弈。

这个博弈中有四个纳什均衡点，即[2,2]、[7,7]、[8,8]、[9,9]。对局双方只有共同合

作才能取得双赢，参与人在哪个点上合作都可以得到收益1，如果合作失败则收益为0。这

时，如果有约定，博弈的结果当然就显而易见了。但是，显然人们没有关于数字选择的约定。

,ureofMorality,NewYork:OxfordUniversityPress,1977,pp:103.

3.奥曼的相关均衡

有通讯的博弈。

一个相关均衡是博弈中所有参与人在调节人的帮助下能够自动执行的相关策略，而调

解人向每个参与人做出不具约束力的秘密推荐。

这里，推荐的概率是公共知识；该均衡是自我强制的或自我约束力的。

X2Y2

X15,10,0

Y14,41,5

两个纯策略均衡点（5,1）（1,5）和一个混合策略均衡，此时的支付为（2.5,2.5）。