博弈论平话
王则柯 著
中信出版社
图书在版编目()数据
CIP
博弈论平话/王则柯著. —北京:中信出版社,2011.4
ISBN 978–7–5086–2656–7
I. 博… II. 王…III. 对策论-普及读物 IV. F224.32
中国版本图书馆CIP数据核字(2011)第017280号
博弈论平话
BOYILUN PINGHUA
著 者:
王则柯
策划推广:中信出版社(China CITIC Press)
出版发行: 中信出版集团股份有限公司
(北京市朝阳区惠新东街甲4号富盛大厦2座 邮编 100029)
(CITIC Publishing Group)
承 印 者:
开 本:印 张:字 数:
787mm×1092mm 1/16 16.75 160千字
版 次:印 次:
2011年4月第1版 2011年4月第1次印刷
定 价:
39.00元
书 号:
ISBN 978–7–5086–2656–7/F·2245
版权所有·侵权必究
凡购本社图书,如有缺页、倒页、脱页,由发行公司负责退换。 服务热线:010–84849283
服务传真:010–84849000
http: //
E-mail: sales@
author@
目
录
前言·VII
第一章
博弈三要素与囚徒困境·1
民营书店的价格大战·3
我怎样被博弈论吸引·6
如此不公平,取胜概率却相等·10
囚徒困境与博弈三要素·13
从囚徒困境说严格优势策略均衡·16
价格大战和双赢对局·19
为什么主要讨论非合作博弈·22
公共品供给的囚徒困境·25
政治家的囚徒困境·28
基数支付和序数支付·30
美苏争霸的囚徒困境·33
第二章
视觉友好的对角排列·48
情侣博弈表达的对称性嗜好·51
第三章
| IV | 博弈论平话 |
理性人一定自私自利吗?·54
不该一律贬斥自利行为·57
情侣的拥挤博弈·60
默契是协调的一种方式·63
劣势策略消去法的讨论·65
简单博弈模型的应用·69
智猪博弈和搭便车行为·71
为什么大股东挑起监督经理的重任·74
猎人博弈和帕累托优势·76
斗鸡博弈和航行规则·79
银行挤兑的成因和预防·83
数据不同,结果各异·86
囚徒困境两败俱伤的隐含条件·89
禁鸣喇叭与交通顺畅·95
串通作弊和风险优势·98
营造克己奉公的制度环境·101
·104“最惠客待遇”对谁有利
风险优势的判定·107
说说风险优势的从属地位·110
第四章
混合策略与均衡筛选·117
扑克牌对色游戏·119
混合策略和纳什定理·122
寻找纳什均衡的反应函数法·125
再说混合策略纳什均衡·130
扑克牌讹诈游戏·136
慕尼黑谈判模拟·141
聚点均衡·143
聚点均衡作为共识均衡·146
聚点均衡的制度设置·148
相关均衡·151
商品品牌的“地域连坐”效应·154
品牌地域连坐的博弈分析·157
抗共谋均衡·161
盯着不散伙的共谋·165
德国世界杯警方的优势策略·169
第五章
零和博弈与霍特林模型·173
零和博弈与非零和博弈·175
均衡的观察与验证·179
纳什均衡与杂货铺定位·183
西方两党政治的稳定性和欺骗性·187
动机和实现不是一回事·191
摊贩为什么都往市场门口挤?·193
学校门口等出租车的争先行为·196
多人博弈的霍特林模型·199
对抗性排序·207
经济学家的对称性偏好·211
第六章
动态博弈和子博弈精炼均衡·215
抓钱游戏·217
你死我活,还是你好我好·221
编排故事,加深理解·224
博弈结果依赖制度设置·227
树型博弈策略组合的粗线表示·230
确定树博弈的纳什均衡·234
树型博弈的子博弈·237
子博弈精炼纳什均衡·240
求解动态博弈的倒推法·244
博弈论向自己出难题·247
实验经济学和行为经济学·250
索引·253
| VI | 博弈论平话 |
前
言
最近四五十年,经济学经历了一场博弈论革命。1994年度
的诺贝尔经济学奖授予三位博弈论专家,2005年度的诺贝尔经
济学奖又授予两位博弈论专家,可以看做博弈论成熟的标志。
这也更激发了人们了解博弈论的热情。20世纪末期以来一个重
要社会现象,是世界经济一体化的发展。伴随进行的,是大众
传媒中经济术语的一体化。现在,人们对于“零和博弈”、“囚
徒困境”、“双赢对局”这些本来属于博弈论(game theory)的
专门术语,已经耳熟能详。难怪“当代最后一个经济学全才”
保罗·(Paul Samuelson)教授,在他生命的最后年
萨缪尔森
月,告诫我们说:“要想在现代社会做一个有文化的人,你必
须对博弈论有一个大致的了解。”
经典意义上的经济学,以经济主体人的自利行为以及相应
的市场反应作为研究的出发点。无论是消费者还是生产者,也
无论是竞争形势还是垄断形势,基本上是经济主体人面对市场
作出自己的最优决策。形势严峻也好宽松也好,行为的结果是
主体人自己决策的结果。
拿同质商品的市场来说吧,像垄断(monopoly)那样没有
对手的决策是比较简单的,“计算”生产和供应多少东西到市
场上去可以实现最大利润就可以了。这时候,所论商品的市场
价格由市场的需求和垄断企业的供给共同决定,因此说垄断企
业是价格的决定者(price maker)。当然还有另外“一个”价
格决定者,那就是市场的需求,但是因为这个市场需求是千千万万消费者的
消费意愿和消费能力的总和,所以它已经不再具有人格化的面貌。另一方面,
像完全竞争(perfect competition)那样对手很多的情况下的决策也比较简单,
因为对手多了,他们的意愿、能力、特别是他们的决策相互汇合,其中也包
括相互抵消,结果“全体对手的决策”和市场需求合在一起,呈现可以预见
的规律,从而可以把对手们的整体反应归结为主体人面对的“一个”不再具
有人格化面貌的市场。因为占有市场份额很小的每个竞争企业,不能影响所
论商品的市场价格,所以我们说竞争企业是价格的接受者(price taker)。这
时候,给定商品的市场价格,竞争企业要做的,就是“计算”应该生产和供
应多少商品到市场上去,才可以实现最大利润。
现代经济活动早已超出上述模式。特别是当主体人面对少数几个作为对
手的主体人的时候,主体人决策的后果,要由他自己的决策和他的对手的决
策共同决定。前面说了,垄断和完全竞争这两种极端情形的决策,都是“计
算型”决策。最困难和最不确定的是只有少数几个对手的情形,即所谓寡头
经济(oligopoly),每一方的市场份额都很大,每一个主体人的行为后果,受
理性行为的理论,是讨论人们在博弈的交互作用中如何决策的理论。
作为一门学科系统地学习博弈论,不是一件容易的事情。事实上目前
在我国,许多最好的大学,也只在经济学研究生中开设比较全面的博弈论
课程。这么说来,博弈论对于广大读者似乎只好敬而远之了。其实不然。
系统地讲授博弈论固然对学生有很高的要求,但是通过比较浅显的例子和
故事普及博弈论的一些知识和方法,阐发博弈论的一些思想和观念,应该
还是大有作为的。
本着这个宗旨,本书从囚徒困境、情侣博弈、诺曼底登陆模拟和慕尼黑
谈判模拟等入手,介绍静态博弈、动态博弈、纳什均衡、零和博弈、双赢对局、
帕累托优势、子博弈精炼纳什均衡等博弈论的基本概念,以及劣势策略消去
法、相对优势策略下划线法、确定混合策略纳什均衡的反应函数法、动态博
弈的倒推法等博弈论基本方法,帮助具有中学文化程度的读者了解博弈论的
若干初步知识。
本书最早的版本,是1998年在中国经济出版社出版的《博弈论平话》,后
来在2004年扩充成《新编博弈论平话》在中信出版社出版,在2007年按照概
念和方法的内在逻辑重新整理并且扩充成为《人人博弈论》在中信出版社出
版,三个版本都连续重印多次。
这次我们按照读书市场的反馈,修枝剪叶,把《人人博弈论》缩编成本
书呈现在读者面前。篇幅虽然比较小,却已经把绝大部分至少在大学本科才
反过来说,现在比较好的大学才能够教授的博弈论课程的内容,凡是不
使用高等数学的,我们在本书中已经讲得相当清楚了,而且叙述方式要浅白
得多。说到数学方法,我们实际上只用到加减乘除。学问讲究发现的乐趣和
心得的喜悦,讲究润物细无声。我们并不追求面面俱到,只是努力以朴实浅
近的文字唤起读者对博弈论和现代经济学的好奇心。
在进行博弈分析的时候,对于同时决策博弈,需要画出矩阵形的表格,
对于先后决策的博弈,需要把博弈表达为一棵“树”。这是学科本身的要求。
除此以外,只要有可能,我都用几何图形代替数字计算和代数推导。这也是
作者风格的一个体现。
最大的变化,则是新写了一节“囚徒困境两败俱伤的隐含条件”。大家知
道,囚徒困境是博弈论最重要的一个模型,“囚徒困境导致两败俱伤”,差不
多已经成为人们的共识。可是囚徒困境之所以导致两败俱伤,是有它的前提
条件的,忽略这个前提条件,就会误导学生和读者误用囚徒困境导致两败俱
伤的这个结论。
我的电子信箱是lnswzk@ 和 ch84111987@ ,敬
第一章
博弈三要素与囚徒困境
这一章是全书的一个导引,首先回顾博弈论普及工作的成效,远溯差不多30
年前作者自己怎样被博弈论吸引。最重要的,则是通过“囚徒困境”博弈,说明
表达一个博弈必须明确博弈参与人、他们可以选择的策略或者行动,以及在每种
策略组合之下参与人的博弈所得即支付这样三个要素。我们还以“囚徒困境”为例,
说明什么是博弈参与人的严格优势策略,什么是博弈的严格优势策略均衡,并且
演示寻找严格优势策略均衡的劣势策略消去法。
这一章还谈到“双赢对局”的概念,以及基数支付和序数支付的关系。
| 第一章 博弈三要素与囚徒困境 | 1 |
民营书店的价格大战
我坐在从广州到杭州的CZ3803航班上,翻阅当天的《南方都市报》。西
湖和钱塘江是我喜欢的地方,在大学里教书和同学们探讨经济学是我喜欢的
工作。现在有人请我到西湖旁边做我喜欢的工作,实乃人生乐事。说起教书,
我在经济学院校讲授的主要是微观经济学、博弈论和信息经济学,不敢随便
揽别的活。
报纸对开的B8和B9两版的大字标题映入我的眼中:
北京两大书店分别以7.5折和7折应对竞争,引发价格大战
书价跳水
原来,2006年9月1日,号称北京市最大书店的“第三极书局”广告
宣布:“请允许我热烈地爱读者一回——从9月1日至10月20日,全场图
书7折。”
这个消息早在预料之中。事实上早在一个半月以前,紧邻第三极书
局的中关村图书大厦,就已经打出“7月15日至8月15日全场图书7.5折”
的条幅,后来又打出“8月19日至10月15日,继续全场7.5折”的广告。
这样连续的打折倾销,叫旁边的第三极书局怎么受得了?
对开两版其他文字的标题是:
打折是无奈之举:这是割喉战?
| 第一章 博弈三要素与囚徒困境 | 3 |
打折风起云涌:7折还能赢利吗?
打折之后:各方力量开始博弈
最坏的结果:劣币驱逐良币
国营PK民营:需要那么多高度同质化的书城吗?
配题大照片的文字则是:
第三极书局推出全场7折,不仅是对竞争对手的应战,对全国图书零
售业或许都将产生系列震荡。
你看,诸如国营、民营、零售、竞争、打折、博弈、对手、赢利、同质化,
全是经济学词汇,真是硝烟弥漫。其中什么叫做竞争、什么叫做赢利、什么
叫做同质化,是微观经济学需要厘清的概念,至于博弈和对手,当然属于博
弈论的范畴了。所以这一组文章引起我的兴趣。
所谓“国营PK民营”,背景在于中关村图书大厦是新华书店系统的“巨
无霸”,面积1万平方米,而第三极书局是民营书店,面积接近2万平方米。
按照记者的说法,第三极书局是迄今最大的民营书店。至于网络用语“PK”
的准确含义,我并不十分有把握,但是从上下文看,应该是对手战或者对决
的意思。由于两家巨型书店开打如此惨烈的价格战,附近的中小型书店也就
只好跟进。一家网上书店甚至开出6.9折的超低价。
对开两版中最长的一篇文章,题为《我们的书价虚高吗?》,其中5个小
标题是:
| 4 | 博弈论平话 |
拆解图书利润链条
定价的差异何在?
书业面临“囚徒困境”?
打折的几种可能性
图书相对购买力低
其中“囚徒困境”已经是博弈论的专门术语了,“囚徒困境”是最典型的
一种博弈模式。
两版报纸,让我浮想联翩。作为热心于普及经济学知识的学者,我高兴
地看到,以科普小册子《博弈论平话》1998年在中国经济出版社出版为标志,
经济学人普及博弈论知识的多年努力,已经遍地开花。传媒和大众都知道“价
格大战的囚徒困境”的说法,就是一个明证。有些提法不大准确,例如价格
大战已经非常惨烈了,却说“各方力量开始博弈”。不过这恐怕也是赶着写稿
发稿,遣词造句难免欠斟酌的缘故。真的问一句“怎么这时候才开始博弈”,
记者自己一定马上醒悟过来。
“囚徒困境”非常重要。历史上,学人杜撰的“囚徒困境”模型和其他一
我怎样被博弈论吸引
1981年秋天,我受中山大学派遣,到美国普林斯顿大学数学系进修两年,
邀请人是在数学系和在经济学系都有办公室的(Harold W. Kuhn)教授。
库恩
部分由于中山大学体现了中山大学和岭南大学两所大学的传承,在普林斯顿
我结识了在那里经济学系任教的岭南大学学长(Gregory C. Chow)教
邹至庄
授和他的夫人、主持普林斯顿大学国际中心的女士,得到他们很大
邹陈国瑞
帮助。这两种人际关系,种下了我后来从事经济学教育的基因。
但是还有一个小小的因素,那就是我曾经被博弈论的一道很浅的习题深
深吸引,心灵感受震动:原来,大学博弈论练习可以设计得那么深刻而有趣。
当时,我已经快40岁了,主要的课题,是在库恩教授的带领下,计算复
杂性理论的研究。我没有修很多课,但是乐意收集习题。那道习题深深地打
动了我,以至于我花了一天时间,“不务正业”,给上海的《科学画报》投稿,
向中学生介绍这个博弈论故事。
普林斯顿大学的那道习题是这样的:
如果给你两个师的兵力,由你来当“司令”,任务是攻克“敌方”占
据的一座城市,通往城市的道路只有甲乙两条,而敌方的守备力量是三
个师。规定:双方的兵力只能整师调动;当你发起攻击的时候,你的兵
力超过敌方,你就获胜;你的兵力比敌方的守备兵力少或者相等,你就
失败。那么,你将如何制订攻城方案?
如果你不懂博弈论,看到这样的题目难免会抱怨:为什么给敌方三个师
的兵力而只给我两个师?这太不公平。兵力已经吃亏,居然还要规定兵力相
等则敌胜我败,连规则都不公平,完全偏袒敌方。这游戏实在没法玩。为此
你也许会大为不满,你这个“司令”要来个躺倒不干。
其实,运用博弈论的方法稍加分析,就可以知道这次模拟“作战”,每一
方取胜的概率都是50%,即谁胜谁负的可能性是一半对一半。你这个“司令”
能否神机妙算,指挥队伍克敌制胜,还得看你的本事。
为什么说取胜的概率是一半对一半呢?那就让我们先学一点儿“纸上谈
兵”。
我们来分析一下:敌方有三个师,布防在甲乙两条通道上。由于必须整
师布防,敌方有4种部署方案,即:
A 三个师都驻守甲方向;
B 两个师驻守甲方向,一个师驻守乙方向;
C 一个师驻守甲方向,两个师驻守乙方向;
D 三个师都驻守乙方向。
同样,你有两个师的攻城部队,可以有3种部署方案,即:
a 集中全部两个师的兵力从甲方向攻击;
b 兵分两路,一师从甲方向,另一师从乙方向,同时发起攻击;
c 集中全部两个师的兵力从乙方向攻击。
我们把双方的部署方案都叫做策略,那么敌方有4种策略可供选择,我
| 第一章 博弈三要素与囚徒困境 | 7 |
方有3种策略可供选择。4乘3等于12,所以一共有12种策略组合,或者说12
种可能的策略对局。在下面3行4列的表格左边,我们写上“我方”和可供我
方选择的3种策略a、b、c,上面写上“敌方”和可供敌方选择的4种策略A、B、
C和D。这样,每个格子就表示一种策略对局。
每个格子里面,如果我们用左下方的“+”表示我方攻克,用左下方的
“-”表示我方攻城失败,用右上方的“+”表示敌方守住,用右上方的“-”
表示敌方城池陷落,那么就可以得出下述交战双方的胜负分析表:
敌方
ABCD
a
++––
––++
–++–
+––+
––++
++––
我方
b
c
攻防作业演练
假设你这个“司令”采取a方案,那么如果敌方采取A方案,你的两个师
将遇到敌方三个师的抵抗,你要败下阵来,所以描述我方的a策略与敌方的
A策略相碰的格子里面,左下方是-,右上方是+;如果敌方取B方案,你
的两个师遇到敌方两个师以逸待劳的抵抗,你也要败下阵来,所以描述我方
的a策略与敌方的B策略相碰的格子里面,同样是左下方-,右上方+;但是
如果敌方取C方案,你以两个师打敌人一个师,你就会以优势兵力获得胜利,
结果在描述我方的a策略与敌方的C策略相碰的格子里面,是左下方+,右上
| 8 | 博弈论平话 |
方-;同样,如果敌方采取D方案,你攻在敌方的薄弱点上,你就能长驱直
入,轻取城池,结果在描述我方的a策略与敌方的D策略相碰的格子里面,也
是左下方+,右上方-。其他两行的格子里面的+和-,也是这个道理。
你看,在所有可能的12种策略对局之中,有一半你这个“司令”取胜,
有一半敌方取胜,可不是一半对一半?
兵力偏袒敌人,规则也偏袒敌人。如此不公平的一个博弈,敌我双方取
胜的概率竟然相等。你看到博弈论“纸上谈兵”的魅力了吧?
| 第一章 博弈三要素与囚徒困境 | 9 |
如此不公平,取胜概率却相等
上一节交战双方的胜负分析表,还可以一步一步尽量化简,得出更加醒
目的图像。
怎么化简呢?如果先从我方入手,3种策略当中一下子是分不出优劣来的。
a和b,b和c,a和c之间,都说不上谁比谁优,谁比谁劣。于是我们从敌方入
手,尝试站在敌军的立场,比较4种不同的策略。
先比较策略A和B。如果我方采取策略a,那么敌方取策略A或者策略B
都会赢,结果一样。如果我方采取策略b,敌方取策略A会输取策略B会赢。
如果我方采取策略c,敌方采取策略A或策略B都会输。可见,站在敌方的立
场,策略B比策略A好:采取策略A会赢的话(如我方采取a),采取策略B
一定也会赢;采取策略A会输的话(如我方采取b或c),采取策略B却不一定
会输,因为假如我方取策略b,敌方就赢了。比较敌方的策略A 和B,我们知
道B是敌方的优势策略,A是敌方的劣势策略。同样,比较敌方的策略C和策
略D,我们知道C是敌方的优势策略,而D是敌方的劣势策略。
敌方
ABCD
a
++––
––++
–++–
+––+
––++
++––
我方
b
c
攻防作业演练(1)
| 10 | 博弈论平话 |
智慧的或者说理性的博弈,是不会采用自己的劣势策略的,所以
参与人
当作出博弈的上述矩阵表示以后,如果发现劣势策略,我们就应该把它划去,
如上图两条竖直的虚线所示。
敌方
BC
a
+–
–+
++
––
–+
+–
我方
b
c
攻防作业演练(2)
现在,剩下上面那个3行2列的矩阵,6个格子中,敌胜我负的比较多,
似乎敌方的赢面比较大。其实不然。因为到了敌方不会采用A和D这两种“笨
蛋”策略的时候,到了敌方只剩下B和C两个较优策略的时候,我方的a、b、
c三个策略之中,原来显不出劣势的策略b,现在很明显是劣势策略了。你也
不是笨蛋,所以你这个“司令”也应该把你的劣势策略b删去。最后,得到
下面那个两行两列的矩阵博弈表示。
敌方
BC
a
我方
c
–+
+–
+–
–+
攻防作业演练(3)
| 第一章 博弈三要素与囚徒困境 | 11 |
情况最终就是这样:敌方必取策略B或策略C那样的二一布防,一路两
个师,另一路一个师,而我方必集中兵力于某一路实施攻击,即a或c那样的
攻击策略。这样,你若攻在敌方的薄弱处,你就获胜;你若攻在敌人兵力较
多的地方,你就失败。总之,敌我双方获胜的可能性还是一样大。
所以,“司令”先生,请不要躺倒不干,你并不比对方吃亏。
这两节介绍的那个博弈论题目,有一个醒目的标题,叫做:
诺曼底
登陆模拟博弈
。
原来,第二次世界大战进行到1944年的时候,以艾森豪威尔为总司
令的盟军,经过近一年的准备,在英国集结了强大的军事力量,准备横
渡英吉利海峡,在欧洲开辟第二战场。当时可供盟军渡海登陆的地点有
两个:一是塞纳河东岸的布隆涅—加来—敦刻尔克一带;另一个是塞纳
河西岸的诺曼底地区。
在诺曼底登陆模拟博弈中,所谓我军,就是艾森豪威尔为统帅的盟
军,所谓敌军,就是法西斯德国军队。这虽然是一个模拟的例子,却具
有相当的现实意义。跨海作战,攻方能够调动来渡海作战的兵力,通常
总是比守方可以用于守备的兵力少。模拟博弈中假设攻方兵力为两个师
而守方的兵力为三个师,背景就是这样。另外,渡海登陆作战,通常至
囚徒困境与博弈三要素
一次严重的纵火案发生后,警察在现场抓到甲乙两个犯罪嫌疑人。事实
上正是他们为了报复而一起放火烧了这个仓库,但是警方没有掌握足够的证
据。于是,警方把他们隔离囚禁起来,要求坦白交代。如果他们都承认纵火,
每人将入狱三年;如果他们都不坦白,由于证据不充分,他们每人将只入狱
一年;如果一个抵赖而另一个坦白并且愿意作证,那么抵赖者将入狱五年,
而坦白者将得到宽大释放,免于刑事处罚。这样,两个犯罪嫌疑人面临的博
弈格局如下面表格所示。和前面几节一样,每个格子中左下角的数字是甲的
博弈所得,右上角的数字是乙的博弈所得。现在,这些数字都不是正数。
乙
坦白抵赖
坦白
甲
抵赖
0–1
–5–1
–3–5
–30
囚徒困境
表述一个博弈的基本要素有三个:第一,参与人或者局中人(players);
第二,他们可选择的(actions)或(strategies);第三,所有可能的
行动策略
对局的结果,用局中人在相应对局下的博弈所得来表示,这个博弈所得,叫
做赢利、赢得、得益或(payoffs)。将来,我们主要采取“支付”的说法。
支付
这里注意,“支付”要理解为因为他们参与博弈所得到的支付,而不是他们付
出的支付。
| 第一章 博弈三要素与囚徒困境 | 13 |
在诺曼底登陆模拟博弈中,博弈的两个参与人是盟军和德军;盟军可
以选择的策略是a、b、c,德军可以采取的策略是A、B、C和D;博弈的各
种对局下双方之支付则是相应格子中的+和–,或者我们可以把它们改写为
+1和–1。而在这一节上面介绍的博弈中,博弈的两个参与人是犯罪嫌疑人甲
和犯罪嫌疑人乙;他们可以选择的策略都是同样的两个,即坦白和抵赖;甲
在各种对局下之博弈所得,是相应格子里面左下角的数字,乙在各种对局下
之博弈所得,是相应格子里面右上角的数字。
概括起来,三要素是:
参与人或者局中人;
他们可以选择的行动或策略;
每个参与人在各种对局下的博弈所得,叫做赢利、赢得、得益或支付。
这种用矩阵形式的表格表示两个参与者的博弈所得的做法,来自博弈理
论的一位先驱者托马斯·(Thomas C. Schelling)。美国普林斯顿大学经
谢林
济学系的(Avinash K. Dixit)教授和耶鲁大学经济学和管理学教授
迪克西特
奈尔伯夫
(Barry J. Nalebuff)在他们的博弈论普及读物《策略思维》中告诉
我们,谢林教授曾经说过:“假如真有人问我有没有对博弈论作出一点贡献,
我会回答有的。若问是什么,我会说我发明了用一个矩阵反映双方得失的做
法……我不认为这个发明可以申请专利,所以我免费奉送,不过,除了我的
学生,几乎没有人愿意利用这个便利。现在,我也供给各位免费使用我发明
的矩阵。”
谢林教授这么说,实在是太谦虚了。要知道,他在1960年出版的著作《对
| 14 | 博弈论平话 |
抗的策略》,迄今是博弈论方面很有影响的文献。他的其他论著,有《抉择与
后果》、《军备与势力范围》、《策略分析与社会问题》等等。他对博弈论有非
常大的贡献。虽然谢林教授的博弈论写作以著作为主,与其他博弈论学者以
论文为主很不相同,并且谢林的写作以语言描述为主,很少采用更加时髦的
数学形式的推导,但是他对于博弈论的巨大的和启发性的贡献,最终还是得
到国际学界的承认。喜欢语言描述的谢林教授和非常数学化的(Robert
奥曼
Aumann)教授,因为对于博弈论的巨大贡献,一起获得2005年度的诺贝尔
经济学奖。
| 第一章 博弈三要素与囚徒困境 | 15 |
从囚徒困境说严格优势策略均衡
回到上一节开始讨论的嫌疑犯博弈问题。如果两个嫌疑犯都是只为自己
利益打算的所谓(rational agent),两位犯罪嫌疑人博弈可能的结
理性主体人
果会怎样呢?要是乙抵赖,那么,如果甲坦白甲就可以得到宽大释放;要是
乙坦白,那么,如果甲也坦白的话甲要坐三年牢,但是如果甲抵赖的话甲可
要坐五年牢。可见对于甲来说,不管乙采取什么策略,他坦白自己总是比较
有利的。所以两相比较,坦白是他的。
全面的严格的优势策略
全面,指的是不论对方采取哪个策略,我的这个策略总显示优势:对方
坦白,我坦白比抵赖好;对方抵赖,我也是坦白比抵赖好。严格,指的是这
个优势策略的结局确实要好一些:对方坦白,我坦白得–3确实比抵赖得–5
好;对方抵赖,我坦白得0也确实比抵赖得–1好。这里,严格是说:–3不仅
仅是不差于–5,而且是严格好于–5;0不仅仅是不差于–1,而且是严格好于
–1。“全面的严格的优势策略”说起来拗口,我们约定以后可以就简称为
严格
。优势劣势是比较而言的。在这个博弈(strictly dominant strategy)
优势策略
中,既然坦白是严格优势策略,那么抵赖就是相应的(strictly
严格劣势策略
dominated strategy)。
同样道理,坦白也是犯罪嫌疑人乙的全面的严格的优势策略,抵赖是相
应的严格劣势策略。
理性的主体人是不会采用对自己明显不利的严格劣势策略的,所以在分
析博弈可能的结局的时候,我们应该把局中人的严格劣势策略删去。下面图
中一横一竖的两条粗实线,就代表两个参与人各自把自己的严格劣势策略删
去。在这个博弈中把双方的严格劣势策略都删去以后,我们就得到这样的结
| 16 | 博弈论平话 |
论:博弈的结局是双方都选择“坦白”策略,在双方博弈的这个对局之下,
他们各得支付–3。
乙
坦白抵赖
坦白
甲
抵赖
–3
–3
0–1
–5–1
0
–5
劣势策略消去法
经济学习惯把市场力量对峙的稳定结局,叫做市场均衡(equilibrium)。
比方说电视机的市场,供不应求将驱使价格上升,供大于求将迫使价格下降,
供求力量对峙的结果,会在某个价格水平达到市场供求的均衡。但是像上面
这样用删去劣势策略的方法得到的由双方的严格优势策略组成的对局,作
为这个博弈的均衡,叫做(equilibrium of strictly dominant
严格优势策略均衡
strategies)。
这个博弈有一个一直沿用的专门名称,叫做(Prisoners
囚徒困境
’
Dilemma),所谓囚徒就是上面讲的嫌疑犯。在囚徒困境两行两列的矩阵格
式中,下面一行对应的是甲的严格劣势策略,右面一列对应的是乙的严格劣
势策略,把它们都删去,就得到“坦白,坦白”得“–3,–3”这个严格优势
策略均衡。注意,在“–3,–3”或者(–3,–3)这样的写法中,第一个数字
是甲之所得,第二个数字是乙之所得。总之,面对上述形式的博弈表达,在
(–3,–3)这样的写法中,第一个数字是表格左方博弈参与人之所得,第二个
数字是表格上方博弈参与人之所得。
| 第一章 博弈三要素与囚徒困境 | 17 |
为节约篇幅,今后有时候将只在“矩阵表格”里用黑体字把结果的位置
表示出来。注意,这里讲的严格优势策略,是全面的严格的优势策略:不论
对方采取什么策略,我采取这个策略总比采取任何别的策略都好,而且要确
实显出好来,不许“打平手”。被全面的严格的优势策略压住的那个策略,才
叫做严格劣势策略。像上面那样通过把严格劣势策略删去的方法寻求对局结
果的方法,叫做。如果甲乙都有三四个甚至更多的策略
严格劣势策略消去法
选择,通常需要一次一次又一次把严格劣势策略删去,才能最后得到一个均
衡。这样一次一次把严格劣势策略删去以寻求对局结果的方法,叫做
严格劣
。(iterated elimination of strictly dominated strategies)
势策略逐次消去法
价格大战和双赢对局
“囚徒困境”固然是博弈论专家设计的例子,但是囚徒困境博弈模型可以
用来描述两个企业的“价格大战”等许多经济学现象。
经济学把两个企业合起来垄断或几乎垄断了某种商品的市场的情形,称
为双寡头经济。双寡头经济是寡头经济的一种。寡头经济可以有好几个企业,
双寡头只限于两个企业。两个企业互相竞争,都想打垮对手,争取更大的利
润。可口可乐公司和百事可乐公司,几乎垄断了美国碳酸饮料市场,它们之
间的争斗,可以看做这个样子的争斗。
争斗的目的,最后当然是增加自己企业的利润。可能有些读者会想,要
增加利润,那就要提高商品的价格。东西卖得贵了,钱不就赚得多了吗?的
确,如果只有你一家企业垄断了整个市场,提高价格可能增加你的利润。但
是现在存在两家相互竞争的企业,消费者可以在两家之间选择。这时候,提
价的结果不仅不能增加利润,反而可能会使自己企业的利润下降。这里,要
紧的因素是市场份额。如果你提价,对方没有提价,你的东西贵了,消费者
润将上升到60亿美元。这时候,究竟是采用较高的价格好还是采用较低的价
格好,两个企业面临的博弈或对策,可以在下面的表格中表示出来,单位是
10亿美元,现在都是正数。因为是关于对策的学问,博弈论也叫做。
对策论
百事可乐
低价高价
低价
可口可乐
高价
3
3
65
15
6
1
价格大战
很明显,对于两个企业,高价都是他们的严格劣势策略,所以,根据严
格劣势策略消去法,双方价格大战的结果,是左上方都采取低价策略进行价
格大战各赚30亿美元的情况。
比较囚徒困境的博弈和价格大战的博弈,细心的读者可以发现,要是把
前面两节囚徒困境博弈的矩阵表示中的每个数字都加上6,正好就变成了现在
价格大战博弈的矩阵表示。如果你一开始就发现了这一点,那么价格大战的
结果就不需要重新用严格劣势策略消去法来做了,你马上可以肯定博弈的结
果是左上方的格子所示。事实上,每个数目都加大6,那么优势的仍然优势,
劣势的仍然劣势,对局形势并没有任何实质性的变化。将来我们还会进一步
看到,许多商战的对策形势,都可以像价格大战博弈那样,归结为囚徒困境
博弈。这也是为什么博弈论的书通常都要从囚徒困境博弈讲起的道理。
那么不管对方的决策怎样,自己总是采取低价策略会占便宜。这就促使双方
都采取低价策略。但是,如果双方勾结或合作起来,都实行比较高的价格,
那么双方都可以因为避免价格大战而获得较高的利润。有人把这样一种双方
都采取高价策略的对局形势,叫做(two-win或者win-win)对局。
双赢
由于在这个企业价格大战博弈之中,如果双方勾结或联手采取高价策略,
双方将都是双赢对局的赢家,所以我们常常把价格大战的参与人采取高价策
略,说成他们采取合作策略。相应地,如果参与人采取低价策略,就说他采
取不合作策略,或者背叛策略。
| 第一章 博弈三要素与囚徒困境 | 21 |
为什么主要讨论非合作博弈
博弈论主要研究非合作的博弈。本书也将基本上不谈合作或勾结的情形。
这有两方面的原因。
从经济的角度来看,如果几个大企业联手或勾结起来形成对行业的垄
断,谋求最大利润,那么它们结成的联盟,称为“卡特尔”(Cartel)。卡特尔
因为由自主的企业组成,所以很不稳定。以产量竞争来说,组成卡特尔,就
要讨价还价,达成限制产量的协定,总产量因为协定的限制降低了,价格也
就会上去,可能比结成卡特尔以前高出很多。这时候,谁要是偷偷地扩大产
量,它可能占到很大的便宜。卡特尔联盟和组成联盟的成员之间的关系,不
是上下级的关系,不是谁服从谁的关系。卡特尔的成员,都是独立的经济主
体,只不过为了利益走到一起来了。既然偷偷违反协议增加产量或提供优惠
会捞到很大的便宜,这就促使一些成员违反协议。所以说,卡特尔行为本身
就提供了瓦解卡特尔的激励。在人类经济活动中,除了石油输出国组织欧佩
克(OPEC)还算比较成功以外,卡特尔成功的例子实在很少。
行为。很快,国务院就发出文件,指出协议非法。这主要是不许企业联手抬
高商品价格损害消费者的利益。原则上说,政府鼓励企业之间的竞争。企业
竞争,会给广大消费者带来很大的好处。比如在20世纪90年代初期,我国移
动电话市场原来基本上是一家垄断,设置使用一部移动电话的费用,高达数
千元上万元。后来打破这一垄断,允许几家企业经营,设置一部移动电话的
费用,很快就下降到千元以下。
初看起来,鼓励竞争似乎对企业不利,使企业不容易赚钱。但是只有这
样,才能激励企业改善管理,开发技术,努力以较低的成本生产质量较好的
东西,提高企业的市场竞争力。由于历史的原因,我国绝大多数企业在国际
市场上的竞争力还很低。竞争力不是天生就有的,竞争力本身就是竞争的结
果。不首先让我们的企业在国内市场好好竞争,它们在国际市场就不可能有
强大的竞争力。我们在下一章会比较深入地展开这个问题。
发达国家对垄断现象和卡特尔现象的限制往往更加严厉。20世纪70年代,
美国两家航空公司的老总在电话交谈中有一句话有试探对方票价走向的意图,
马上受到反托拉斯局的检控和惩罚。更典型的例子是,20世纪80年代,经过
多年的辩论和漫长的立法程序,美国把原来垄断电话通讯市场的AT&T公司
强行分割为几个公司。分割以后,由于公司之间的竞争,电话服务的价格很
快就下降了一半,再加上竞争激励出来的技术进步,现在用电话卡从美国往
中国打电话,每分钟只要几美分。我国电话服务市场长期是垄断的,所以直
到10年前,在我国许多地方,装一部电话不仅要花三四千元,而且还要排队
等待不少时间才能装上。但是在许多发达国家,如果你要装电话,只需通知
电话公司,马上就会给你装好,完全不用缴纳什么安装费。由于竞争,如果
你把选择的电话服务从原来的公司撤出来转到另一家公司,新的公司还马上
会给你奖励,比如说奖励你30分钟的国内长途电话费,再加一件T恤什么的。
现在,我国电话服务市场开放竞争,不仅消费者马上在话费等方面得到实惠,
电话服务水平也明显上升。
由于合作和勾结不容易,更由于政府多半都鼓励竞争,所以,我们将主
要研究非合作博弈。
| 24 | 博弈论平话 |
公共品供给的囚徒困境
公共品和私人品,性质很不一样。私人品是私有私用,除了像他穿得整
齐你看着也舒坦那样十分间接的效应以外,别人很难沾什么光。公共品则不
一样,不管是谁提供的,许多人都可以享用。典型的如路灯,只要有人装了,
路人都将得到好处,哪怕他没有为此贡献过一分一厘。
设想乡下某个地方有一个只有张三李四两户人家的小居民点,由于道路
情况不好,与外界的交通比较困难。假设修一条路出去,每家都能得到“3”
那么多好处,但是修路的成本相当于“4”。这时候要是没有人协调,张三李
四各自打是否修路的小算盘,那么两家博弈的形势如下:如果两家联合修路,
每家分摊成本“2”,各得好处“3”,两家的纯得益都是“1”;如果一家修另
一家坐享其成,修的一家付出“4”而得到“3”,得益是“–1”,坐享其成的
一家可以白白得益“3”;如果两家都不修路,结果两家的得益都是“0”。归
纳起来,就是下面的博弈。
李四
修不修
修
张三
不修
–1
3
0
0
13
1–1
合作修路博弈
坐享其成的一家可以白白得益“3”,是因为我们假设修路的一方并不因
此获得路权,即他不能因为修了路就不让邻居走。
| 第一章 博弈三要素与囚徒困境 | 25 |
在这个博弈中,对方修路、自己不修路可以坐享其成;对方不修路、自
己修路将得不偿失,所以修路是张三的严格劣势策略,我们应该把它消去。
同样,修路也是李四的严格劣势策略,所以也应该把它消去。这样运用严格
劣势策略消去法,我们就得到黑体字所示的这个博弈的严格优势策略均衡:
两家都不修路,大家都得0。
一般来说,如果张三只有李四一家邻居,李四只有张三一家邻居,他们
多半会守望相助,关系比较好。这样的两家,自然会好好商量修路的问题,
一起把路修好,大家都得到好处。相反的极端情形,两家有仇,也是可能的,
那就麻烦了,不是什么修路不修路的问题,迟早要出事。但是,这两种情形,
因为掺杂了别的因素在里面,所以都不在博弈论讨论之列。
机关大院,居民小区,要有专人协调管理,把身边看起来很琐碎但是弄不好
就很损工作条件和生活环境的事情做好。
发达国家一方面比较讲究个人意志,另一方面对公共秩序的管理十分严
格。比方说你买了房子,一方面房子连同地皮都是你的私产,另一方面你不
能对你的私产为所欲为。哪怕只是草地没养好,破坏了小区的格调,社区也
要管你。邻居对于你没有管护好草地影响了小区格调的抱怨,邻居对于你喜
欢大声喧哗扰人清梦的抱怨,都通过社区匿名地通报给你。
政治家的囚徒困境
同样,政治家们也会变成“囚徒困境”中的“囚徒”。迪克西特和奈尔伯
夫的《策略思维》中讲了这么一个例子。
1984年,大多数政治家都很明白,美国联邦预算的赤字实在太高了。解
决财政问题的基本思路,不外乎“节流”和“开源”。联邦的巨额开支每一笔
都理据十足,所以裁减开支在政治上并不可行。这样一来,大幅增税应该是
不可避免的。不过,谁愿意担当政治领导角色,带头主张这么做呢?议会政
治的政治家以讨好选民为己任,而增税是选民最不喜欢的事情。民主党总统
候选人沃尔特·蒙代尔(Walter Mondale)想要在自己的竞选活动当中为这
么一个政策转变制造声势,却被罗纳德·里根打得落花流水,因为里根许诺
“绝不加税”。1985年,这个议题陷入僵局,无论你怎么划分政治派别,无论
是民主党还是共和党,无论是众议院还是参议院,无论是政府还是国会,各
方都希望把提出加税的主动权推给对方。
从各方的角度看,最好的结果在于,另一方有人提出加税和削减开支,
他们因此不得不付出政治代价。反过来,假如自己提出这样的政策,而对方
坚守被动局面,并不附和,自己就会落得最糟糕的下场。双方都知道,与同
时坚守被动,眼看巨额赤字上升而无所作为相比,联合起来共同倡议加税和
削减开支,共同分享荣誉也分担谴责,显然会对整个国家更有利,即便对他
们自己的政治生涯,从长期而言也会有好处。
这样,我们可以画出一个已经熟悉的表格,标明可能的策略和结果,将
上述情况变成一个博弈。参与博弈的双方分别是民主党和共和党。为了表示
数字越小越好!每个格子左下角是共和党给出的排序,右上方是民主党给出
的排序。
民主党
主动被动
主动
共和党
被动
43
13
21
24
共和党和民主党的排序
显而易见,对每一方而言,保持被动是一个优势策略。而这也是真实发
生的事情,第99届国会根本没有作出任何加税决定。第99届国会确实通过了
《格拉姆–鲁德曼–霍灵斯法》(Gramm-Rudman-Hollings Act),这一法案规定
以后必须实行削减赤字政策。不过,这只是一种伪装,好像采取了行动,实
际却推迟了作出艰难抉择的时间。这一目的与其说是通过限制财政支出的做
法做到了,不如说只是玩弄了一下会计上的小把戏。
| 第一章 博弈三要素与囚徒困境 | 29 |
基数支付和序数支付
细心的读者应该注意到,上一节政治家囚徒困境的支付矩阵,和我们前
面讲过的支付矩阵很不一样。以前讲的支付矩阵,在运用劣势策略消去法的
时候,都是把相应于支付数目小的策略删去,把相应于支付数目大的策略留
下,但是上一节讲的政治家的囚徒困境,我们却把相应于数目大的策略删去,
把相应于数目小的策略留下。这是很大的不同。
如果你在阅读上一节的时候,没有注意到这个差别,我就要责怪你读书
粗心、不经大脑了。
究竟把小的删去还是把大的删去,不能任意胡来。关键是看大的好还是
小的好,看大的表示好的还是小的表示好的。以前讲的支付,具体来说就是
赢利、赢得或者得益,越大越好。但是上一节讲的政治家的囚徒困境,文字
已经说清楚,“为了表示谁更加倾向于怎么做,我们把每个结果按照各方的利
益给出从1到4的排序,数字越小越好”。每个格子左下角是共和党给出的排
序,右上方是民主党给出的排序。这就是说,在每个博弈参与人的四种结果
当中,1表示的是第一好的结果,2就是第二好,3就是第三好,而4是总共四
种情形当中当事人认为最不好的情形。
日常生活中,人们常常用两种不同的数字方式表示好坏,表示不同的满
意程度。一种是像百分制考试、托福、GRE、跳水比赛、体操比赛、十项全
能比赛的计分那样,分数越高越好。我们在介绍政治家的囚徒困境以前使用
的所有支付表示,都是这样的表示。另外一种,是像体育比赛第几名这样的
表示,第1名比第2名好,第7名比第23名强,等等,表示名次的数字越小越
好。政治家囚徒困境的上述讨论,就采用了这样的表示方式。所以,以前是
| 30 | 博弈论平话 |
删小留大,现在是删大留小,但都是删劣留优。
数字是大的好还是小的好,这要看你使用什么制度。小学生比成绩,如
果按百分制比,分数越高越好,如果按名次比,第1名比别的都好。
由此可见,数字表达好坏,有两种基本的制度:一种是百分制那样的
基数序数
(cardinal)表示制度,数字越大越好;另外一种是第1名最好的
(ordinal)表示制度,数字越小越好。为什么叫做基数表示和序数表示呢?原
来,按照语义学,数词分为两种:基数词和序数词。像1、95、7.8、–3.1416等,
是基数词,而第1、第2、第7等,是序数词。可见,基数词给出数值,而序
数词给出排序。简单博弈表示中的支付,排出次序或者序次来,是最本质的
操作,至于基数赋值究竟是多少,其实反而是第二位的。如果你在阅读本书
的前面部分的时候,觉得价格大战中的6、3、1、5不好把握,(为什么不是7、
3、1、5呢?)觉得情侣博弈中的2、1、0这些数字不好把握,(为什么不是4、
2、0呢?)那是相当正常的现象。但是究竟哪个比哪个好,你应该容易把握。
这种对比,正好说明排序比基数赋值重要。
总之,以前讨论过的支付矩阵,都是基数支付矩阵,上一节讨论政治家
的囚徒困境讲的支付矩阵,却是序数支付矩阵。有些读者不满足于了解博弈
论的思想,而且决心掌握本书介绍的博弈论的初步方法。对于这些读者,建
议你们把前面进过的用基数支付矩阵讨论的博弈,全部改用序数支付矩阵重
新讨论一次。这样,方法就掌握了。
值得注意的是,序数词不仅是第1、第2、第7等,我们也可以说第0,
它比第1更好,可以说第7.8,介乎第7和第8之间。还可以说第–3.1416、第
π、第3π等,不一定是整数,也不一定是正数,甚至不一定是所谓“有理数”。
反正原则是越小越好。
| 第一章 博弈三要素与囚徒困境 | 31 |
如果大家对序数表达不大习惯,暂时不使用也没有太大关系。记得我给
大学一年级下学期的同学上“中级微观经济学”的第一课时,曾经打出下面
这样一个标题:
第0章 预备知识
课堂里泛起一阵轻轻的笑声。笑声说明一些同学不习惯章节从0而不是从
1排起。但是笑声很轻,并且很快过去,却又说明不习惯的同学马上就习惯了。
所以,如果你对序数表达不习惯,那么我告诉你,这到头来还只是一个习惯
不习惯的问题,没什么了不起。
作为一个教师,我更多的是体验这阵笑声传达的一种心心相印的意境。
| 32 | 博弈论平话 |
美苏争霸的囚徒困境
军备竞赛是囚徒困境的又一个典型例子。下面讲的,源自30年前美国的
博弈论课本,本书不敢掠美。
从军事上看,30多年前,美国和苏联是世界上的两个超级大国,它们相
互对垒。假定每一方都有两种策略选择,一个是扩军,发展战略核武器,甚
至实施“星球大战”计划等;另一个是彻底裁军,直至不设军备。如果双方
都扩军,则各花费2 000亿美元用于军费。彻底裁军,则军费为0。
在一个弱肉强食的世界上,如果美国裁军不设防,但是苏联扩军,苏联
就可以任意欺侮和损害美国。这样,美国会受到很大损失。损失之大,直至
丧失主权。这使我们可以非正式地把这种情况下美国的赢利记做–∞,即负
无穷大。
这时候,欺侮人的一方的赢利是多少呢?你可能想象应该是+∞,即正
无穷大。其实不然。你想想,砍伐一片森林所造成的损失,难道可以用所得
到的木材的价值来补偿吗?更不必说占领甚至炸毁对方一座城市,你所得到
的远远低于对方的损失。被欺侮一方的损失,并不会等量地转化为欺侮人的
一方的利益,这常常是对抗的规律。所以,在一方扩军欺侮别人而另一方裁
军任人欺侮的情况下,我们假定欺侮人的一方将只掠夺到一个有限数额的财
富,比方说10 000亿美元。这10 000亿美元的掠夺成本是上面讲的2 000亿美
元。没有这2 000亿美元的军费来武装到牙齿,就不能征服对方。所以,在上
述数据假设之下,掠夺者之纯赢利应该是8 000亿美元。
可见,如果双方都裁军,各方在这种实际上没有对峙的军事对峙中的赢
利都为0。如果双方都扩军,那么在这场均势的军事对峙中,各方的赢利都等
| 第一章 博弈三要素与囚徒困境 | 33 |
于–2 000亿美元,双方都花了军费嘛。如果一方扩军另一方裁军不设防,扩
军的一方赢利为8 000亿美元,不设防的一方赢利为–∞。这样,我们就可以
写下美苏两家的争霸博弈。
苏联
扩军裁军
–2 000
–2 000
8 0000
8 000
0
扩军
美国
裁军
–∞
–∞
美苏军备竞赛
运用劣势策略消去法,我们马上知道,双方都扩军是这个争霸博弈唯一
的优势策略均衡,以后我们还会知道,双方都扩军是这个争霸博弈唯一的“纳
什均衡”。
30多年前,现实的军备竞赛形势,的确很像左上角格子代表的情形。这
是很可悲的。人类为什么那么愚蠢,不和平共处于不花费军费的右下角呢?
这本来是对双方都比较有利的情况呀。原因很简单:在一个弱肉强食的世界
上,不论对方是扩军还是裁军,站在自己利益的立场,扩军总是比裁军有
利。如果苏联裁军,那么美国也裁军将得0,美国若扩军将得8 000,所以为
了自己的利益美国要扩军;如果苏联扩军,那么美国也扩军将损失军费开支
2 000,美国若裁军将损失无穷大,所以为了自己的利益美国更要扩军。反过
来也一样,这就造成了实际上和囚徒困境一样的争霸博弈均衡:双方都扩军,
双方都损失。
值得一提的是,这是人们30多年前的数据和思维。现在,世界大势已经
| 34 | 博弈论平话 |
和那个时候很不相同。苏联解体,世界上只剩下美国这个超级大国。在美国
现代史上,里根总统的地位为什么那么高?部分原因就是他的“星球大战”
计划,拖垮了苏联的经济,为美国成为世界上唯一的超级大国创造了条件。
读者是否注意到,上面的分析,隐含美苏实力完全相当的假设条件,但
是实际情况却是苏联不像美国那么富强。如果苏联比美国弱一点,情况又怎
么样?这里说的“弱一点”,不妨具体想象为军力弱一点点,但是整个经济实
力弱很多。请试试作一个美苏军备博弈分析,体现苏联比美国弱一点的这种
情况。你会发现,只要一方不是比另外一方弱得太多,两个超级大国还是要
第二章
情侣博弈和协调博弈
如果博弈参与人没有严格的优势策略怎么办?难道参与人没有严格的优势策
情侣博弈和纳什均衡
迄今我们讲过的博弈均衡,都是严格优势策略均衡。我们已经知道,这
种由每个博弈参与人的严格优势策略组成的博弈均衡,可以用一次一次消去
严格劣势策略的“严格劣势策略消去法”做出来。可惜,很多博弈没有严格
优势策略组成的严格优势策略均衡。下面的情侣博弈就是一个例子。
情侣还讲什么博弈?你可能这样问。其实,即使是情侣,双方的爱好或
者偏好还是不完全相同的。设想大海和丽娟正在热恋。难得的周末又到了,
安排什么节目好呢?周末晚上,中国足球队要在世界杯外围赛中和伊朗队作
生死之战。大海是个超级球迷,国内的什么“中超”联赛都不肯放过,何况
是不争气的国家队的生死大战?也正好是这个周末的晚上,俄罗斯一个著名
芭蕾舞剧团莅临该市演出芭蕾舞剧《胡桃夹子》。丽娟最崇尚钢琴芭蕾这样的
高雅艺术,对斯拉夫民族的歌唱和芭蕾更是崇拜得五体投地,她怎么肯放过
正宗俄罗斯的芭蕾《胡桃夹子》?这么说,一个在自己家里看电视转播的足
球比赛,一个去剧院看芭蕾演出不就得了?问题在于,他们是热恋中的情侣。
各自度过这难得的周末时光,才是最不乐意的事情。这样一来,他们真是面
临一场温情笼罩下的“博弈”:
丽娟
足球芭蕾
足球
大海
芭蕾
1
在情侣博弈中,双方都没有严格优势策略和严格劣势策略。我们不妨这
样给大海和丽娟的“满意程度”赋值:如果大海看球,让丽娟一个人去看芭
蕾,双方的满意程度都为0;两人一起去看足球,大海的满意程度为2,丽娟
的满意程度为1;两人一起去看芭蕾,大海的满意程度为1,丽娟的满意程度
为2。应该不会有丽娟独自看球而大海独自去看芭蕾的可能,不过人们还是把
它写出来,设想因此双方的满意程度也都是0。这样来描述大海和丽娟的情侣
博弈,你觉得怎么样?
读过前一章的读者知道寻求严格优势策略均衡的严格劣势策略消去法。
现在,芭蕾不是大海的劣势策略,因为如果丽娟坚持芭蕾,他选足球只得0,
选芭蕾却还可得1。足球当然更不是大海的劣势策略。所以,大海没有绝对的
劣势策略。同样,丽娟也没有绝对的劣势策略。这样,严格劣势策略消去法
就没有用武之地了。
但是,他们总会作出一个较好的选择,因为他们是热恋的情侣。博弈论
中最重要的概念“纳什均衡”,指明了情侣博弈等一大类策略优势不那么明显
的博弈的结局。策略优势不明显,指的是双方都没有“不论对方采取什么策
略我总是采取这个策略好”的严格优势策略。其实,我们只须关心一种双方
“相对的优势策略”的组合。在情侣博弈中,双方都去看足球,或者双方都去
看芭蕾,就是我们所说的相对的优势策略的组合:一旦处于这样的位置,双
方都不想单独改变策略,因为单独改变没有好处。准确地说,是单独改变不
会带来进一步的好处。比方说两人一起看足球,大海得2丽娟得1;如果大海
单独改变去看芭蕾,变成自己得0,没有好处;如果丽娟单独改变去看芭蕾,
也变成自己得0,同样没有好处。所以,两人一起去看足球,是稳定的博弈对
局。按照同样的思路,两人一起去看芭蕾,也是稳定的博弈对局。
| 40 | 博弈论平话 |
这样的思考引导我们得到(Nash equilibrium)的概念,
纳什均衡纳什
(John F. Nash)是在1950年建立这一概念的数学家,由于对博弈论作出奠基
性的贡献,他在1994年荣获诺贝尔经济学奖。在情侣博弈中,双方都去看足
球,或者双方都去看芭蕾,是博弈的两个纳什均衡。我们在博弈的上述表示
中,用黑体数字表达两个纳什均衡的位置。
这里要注意的是,纳什均衡不是(2,1)和(1,2),而是(足球,足球)
和(芭蕾,芭蕾),因为纳什均衡是双方策略的组合。两个纳什均衡分别是:
大海选足球,丽娟也选足球;丽娟选芭蕾,大海也选芭蕾。我们只是用(2,1)
指示大海选足球丽娟也选足球这个(足球,足球)均衡,用(1,2)指示丽
娟选芭蕾大海也选芭蕾这个(芭蕾,芭蕾)均衡。总之,两个纳什均衡是(足
球,足球)和(芭蕾,芭蕾),在这两个均衡中,博弈双方的所得分别是(2,1)
和(1,2)。我们在前面说过,在(2,1)或者(1,2)这样的写法中,第一
个数字是博弈的“左方参与人”大海之所得,第二个数字是博弈的“上方参
与人”丽娟之所得。所谓左方参与人,就是写在博弈表格左边的参与人;所
谓上方参与人,就是写在博弈表格上方的参与人。
这一节我们借助情侣博弈引入博弈论最重要的概念—纳什均衡。因为
绝对优势策略一定是相对优势策略,所以很显然,前一章讨论囚徒困境那样
的博弈时建立的严格优势策略均衡,也都属于现在引入的纳什均衡。但是,
纳什均衡却不一定是严格优势策略均衡。一句话,纳什均衡的概念要求比较
宽,比较低,严格优势策略均衡的概念要求比较高,比较窄。
,说的是恩爱夫妻原来的标准说法是(battle of xes)
情侣博弈性别之战
的偏好差异所引起的对局形势,是利益关系方面双方大同小异这么一种情况。
不同的说法适合不同的情形,读者可以有自己的偏好。
| 第二章 情侣博弈和协调博弈 | 41 |
情侣博弈的其他例子
情侣博弈有许多不同的版本,现在我们再讲一个。假定陈明和钟信都是
某大学英语系的学生,一直是很要好的朋友。高年级了,他们在考虑选修第
二门外语。陈明偏向修德语,钟信偏向修法语,但最要紧的是两人选同一门
课才可以一起复习,对话,继续他们以往如切如磋如琢如磨相得益彰的同学
生涯。这时,他们面临的抉择,可以表示为下面的博弈:
钟信
德语法语
2
3
1
1
2
1
3
1
德语
陈明
法语
选修课博弈
如果把上次讲的情侣博弈中的所有数字都加上1,就得到现在这样的数字
矩阵。可见,这个“选修课博弈”实质上和上次讲的情侣博弈完全一样。在
这个博弈中,有两个用黑体数字表示的纳什均衡,一个是两人都修德语,陈
明得3,钟信得2,另一个是两人都修法语,陈明得2,钟信得3。纳什均衡
是稳定的,就是说处于纳什均衡的时候,任何一方都不想单独改变策略选择,
因为单独改变不会带来进一步的好处。
战争里面也有性别之战或者情侣博弈这样的策略格局。第二次世界大战
进行到1944年冬天的时候,在欧洲战场西线以美军和英军为主的反法西斯盟
| 42 | 博弈论平话 |
军,面临集中资源主要支持英国蒙哥马利元帅还是主要支持美国巴顿将军的
抉择。如果两个国家集中资源主要支持美国的巴顿将军,美国得4,英国得3;
如果主要支持蒙帅,美国得3,英国得4。如果分散资源各自为战,那么因为
希特勒德国已经走向穷途末路,西线盟军还是会胜利前进的,但是取胜态势
会缓慢很多。如果英国支持蒙帅,美国支持巴顿,美英两国各得2;如果颠倒
过来英国支持巴顿,美国支持蒙帅,则只能各得1。所以,美英双方这种友军
博弈的形势如下:
英国
支持巴顿支持蒙帅
3
4
1
1
3
2
4
2
支持巴顿
美国
支持蒙帅
盟军战略选择博弈
前面讲的“选修课博弈”矩阵中的每个数字再加1,差不多就得到现在这
个美英双方支持策略的博弈。这为我们提供了情侣博弈的又一个例子。这个
博弈也有两个纳什均衡,一个是美英两国集中资源主要支持巴顿,另一个是
他们集中资源主要支持蒙哥马利。
左下角格子里的数字为什么不是2和2而是1和1,留待以后再说。
讲到现在,情侣博弈与经济决策有什么关系呢?这就要看你的想象力了。
比如两个相邻的企业都要解决各自的供水问题。如果他们各干各的,成本就
会比较高,效益就没那么好。如果两个企业联合起来投资建设共用的供水系
| 第二章 情侣博弈和协调博弈 | 43 |
统,效益就会比较好。但是在选择合作方案的时候,由于各种因素,在携手
合作的大前提下,还是可能有小算盘的考虑。你想这样,他想那样,这也是
人之常情嘛。这种合作比不合作好,但是在合作的大局下面又不免有小算盘、
相对优势策略下划线法
前面讲了情侣博弈的几个例子,它们都有两个稳定的纳什均衡。所谓纳
什均衡,就是双方的一种策略对局形势,在这种对局之下,每一方都不想从
这时候对峙的策略单独偏离出去。值得注意的是,上面两节的各种情侣博弈
的纳什均衡,我们都是“看”出来的。当然,能够看出来,并且作论证,也
是本事。但是如果对局复杂一些,不容易看出来,那该怎么办?
有办法。这就是现在我们要讲的相对优势策略下划线法。具体做法如下:
丽娟
足球芭蕾
1
2
0
0
1
0
2
0
足球
大海
芭蕾
相对优势策略下划线法
在我们熟悉的上面这个情侣博弈中,如果大海选足球,丽娟的相对优势
策略是也选足球,这样她可以得1,总比她选芭蕾将得0好。于是,我们在左
上方格子中的右上角的1下面画线;如果大海选芭蕾,丽娟求之不得当然选
芭蕾可以得2,这时芭蕾是她的相对优势策略,于是我们在右下方格子中的右
上角的2下面画线。同样,如果丽娟选足球,大海当然选足球从而他可以得2,
这是他的相对优势策略,我们应该在左上方格子中左下角的2下面画线;如
果丽娟选芭蕾,大海也选芭蕾他可以得1为好,芭蕾变成大海的相对优势策
略,于是我们在右下方格子中左下角的1下面画线。
| 第二章 情侣博弈和协调博弈 | 45 |
纳什均衡可以采用上述(method of underlining
相对优势策略下划线法
relatively dominant strategies)来确定:首先像上面所做的,逐次在相应的支
付数字下面画线,标示局中人相对于对方可能的策略选择(一行或一列)的
相对优势策略的位置。
双方的相对优势策略都这样在相应的支付数字下面画线以后,如果
哪个格子里面两个数字下面都被画线,这个格子所对应的双方相对优势
策略的组合,就是一个纳什均衡。
这样运用相对优势策略下划线法,因为有两个格子都是其中的两个支付
数字的下面都被画了线,我们马上可以知道,上述情侣博弈有两个纳什均衡,
一个是一起看足球得(2,1),一个是一起去看芭蕾得(1,2)。在上述博弈
矩阵中,这两个均衡都已经用黑体字表示出来。
必须说明的是,以前讲过的可以直接用劣势策略消去法做出来的优势策
略均衡,都可以用现在讲的相对优势策略下划线法来做。道理其实很简单:
绝对优势策略一定是相对优势策略。
以最早讲的囚徒困境为例,如果甲坦白,乙的相对优势策略是也坦白,所
以要在左上方格子里面右上角的–3下面画线;如果甲抵赖,乙的相对优势策略
还是坦白,所以要在左下方格子里面右上角的数字0下面画线。再看甲:如果
乙坦白,甲的相对优势策略是也坦白,这样我们应该在左上方格子里面左下角
的数字–3下面画线;如果乙抵赖,甲的相对优势策略还是坦白,所以要在右上
方格子中左下角的数字0下面画线。这样把所有相对优势策略全部在相应的支
付数字下面画线标记以后,就可以看到,只有左上方一个格子是两个支付数字
| 46 | 博弈论平话 |
下面都被画了线的,这个格子代表的策略组合(坦白,坦白)就是囚徒困境博
弈的均衡。它是以前讲的优势策略均衡,也是现在讲的纳什均衡。
乙
坦白抵赖
–3
坦白
甲
抵赖
–3
0
–5
–1
0
–1
–5
相对优势策略下划线法对付囚徒困境
归纳起来,前一章讲过的优势策略均衡一定也是纳什均衡,因为如果
已经处于绝对优势策略的位置的话,不会有单独改变策略选择的激励。另
外,可以用以前讲的劣势策略消去法做出来的优势策略均衡,一定可以用
现在讲的相对优势策略下划线法做出来,虽然还是采用劣势策略消去法比
视觉友好的对角排列
我们的博弈矩阵中的书写支付的表格,是在每个格子里面左下右上两个
地方错开写下左方参与人的支付和上方参与人的支付。下面就是一个熟悉的
例子。这一节,专门谈谈我们这种在博弈矩阵格子中“对角”排列的支付表
示方法的好处。
钟信
德语法语
德语
陈明
法语
13
12
21
31
支付对角表示的选修课博弈
大部分博弈论书籍的支付排列方法,和我们使用的这种对角表示方法不
同。它们使用平列的支付表示,博弈矩阵表格的每个格子里面,两个支付数
字按照下述形式平列:第一个数字是与这个格子对应的对局之下左方参与人
之所得,第二个数字是与这个格子对应的策略组合之下上方参与人之所得:
钟信
德语法语
德语
陈明
的时候,颇伤眼力。
为了说明这个问题,我们写下博弈有甲乙两个参与人且每人有两个策略
选择的下述博弈:
甲有“上”、“下”两个策略可供选择,乙有“左”、“右”两个策略
可供选择;
在甲上乙左的策略组合,甲的支付是A1,乙的支付是C1;
在甲上乙右的策略组合,甲的支付是B1,乙的支付是C2;
如果对局是甲下乙左,甲的支付是A2,乙的支付是D1;
如果对局是甲下乙右,甲的支付是B2,乙的支付是D2。
为了确定博弈的均衡,我们需要比较A1和A2的大小,比较B1和B2的
大小,比较C1和C2的大小,比较D1和D2的大小。在对角排列的情形中,
这种比较是比较容易的。因为无论上下比较还是左右比较,都是“干干净净”
的A1和A2比较,B1和B2比较,C1和C2比较,D1和D2比较,当中没有阻隔。
乙
左右
上
甲
下
D1D2
A2B2
C1C2
A1B1
视觉友好演示
但是面对平列表示,这种比较就不那么“干干净净”了。A1和A2比较
| 第二章 情侣博弈和协调博弈 | 49 |
以及B1和B2比较还算干净,但是C1和C2比较,需要跨过一个B1,D1和D2
比较,需要跨过一个B2,当中都有阻隔。
对于专业研习博弈论的大学生和青年学者,这个小小的阻隔可能并不是
什么问题。在他们的火眼金睛面前,比较这些数字只不过是“小菜一碟”。可
是作为多年教授博弈论的一位老教师,我却感到这个小小的阻隔很伤眼力。
相信不专攻博弈论的普通读者,会和我一样,比较喜欢对角表示。
乙
左右
上
甲
下
A1C1B1C2
A2D1B2D2
费神比较演示
最后指出,这种甲有“上”、“下”两个策略可供选择、乙有“左”、“右”
两个策略可供选择、支付表示为A1、C1、B1、C2、A2、D1、B2和D2的博弈,
形式上概括了所有参与人数目为2、可供每个参与人选择的策略数目也是2的
同时决策博弈。
| 50 | 博弈论平话 |
情侣博弈表达的对称性嗜好
前面说过,情侣博弈的英文原名是battle of xes,有人翻译成性别之战,
有人翻译成夫妻之争,我觉得都不如翻译为情侣博弈来得好。不过萝卜白菜
各有所爱,自然不必强求。
但是在几乎所有博弈论著作中,情侣博弈原来的模型大体上如下面的矩
阵所示,我们姑且把它叫做情侣博弈的“标准”表述吧。我觉得这个“标准”
表述的一个支付赋值没有道理。情侣博弈说的是,即使是热恋的情侣,双方
的爱好还是不相同的。大海是个超级球迷,丽娟最喜欢芭蕾,但是分开各自
度过这难得的周末时光,才是他们最不乐意的事情。这是博弈形势的背景。
丽娟
足球芭蕾
10
20
02
01
足球
大海
芭蕾
情侣博弈的“标准”表述
一起看球,大海最高兴得2,丽娟也高兴得1;一起欣赏芭蕾,丽娟最高
兴得2,大海也高兴得1;两人分开,大海看球丽娟看芭蕾,大家都不那么高
兴,各得0。这些设置都没有问题。但是左下方格子表示的是,本来不喜欢芭
蕾的大海偏偏赌气独自去看芭蕾,本来不喜欢足球的丽娟偏偏赌气独自去看
足球,怎么也是各得0呢?我看至少应该各得–1。因为0是分开各自找自己
喜欢的节目的赋值,现在是分开各自去看自己不喜欢的节目,赋值当然要比0
| 第二章 情侣博弈和协调博弈 | 51 |
低。这就应该得到下面的博弈矩阵:
丽娟
足球芭蕾
10
20
–12
–11
足球
大海
芭蕾
情侣博弈“标准”表述的修正
那么,在情侣博弈原先的矩阵表达中,为什么左下角两个数字都设为0
呢?原来,许多经济模型专家和博弈论专家,都有一种“对称性怪癖”或者
说“对称性嗜好”,喜欢对称的模型。如果左下角两个数字都设为0,这样得
到的模型,就有他们喜欢的对称性。我们在第五章会具体说明经济学家为什
么喜欢对称性。但是,当实际情况很难具有对称的表达时,硬要追求脱离实
际的对称性,模型的信服力可能受损。
这也是开头的时候我们在叙述美英是集中资源共同支持巴顿将军还是共
同支持蒙哥马利元帅的下述博弈的表达中,左下角不是两个2而是两个1的道
理。我们觉得这样表达比较好,比较有说服力。
英国
支持巴顿支持巴顿
32
42
14
13
支持巴顿
美国
支持蒙帅
盟军战略选择博弈
| 52 | 博弈论平话 |
经济模型是时髦的说法。上面讲的都是经济模型。经济模型很有用,但
是盲目崇拜不可取。别人提出一个模型,我们要想想它是否符合实际。
另外,如果以为模型越大越细致越好,那就错了。最要紧的,是看模型
是否抓住了事物的本质,看有关的数据是否比较接近实际。在这个原则之下,
如果能够说明同样的问题,模型是越简单越好,越简单越值得夸奖。复杂的
模型会使讨论对象变得模糊,甚至在相应的计算中出现误差掩盖本质的局面,
从而不能得出任何有意义的结果。谢天谢地,本书讨论的博弈论,只需要比
理性人一定自私自利吗?
如果你同意我们对原来“标准”的情侣博弈模型的数据作修改,同意下
面大海和丽娟的“周末节目博弈”,我还想利用这个机会为现代经济学的理性
行为假设说几句话。
丽娟
足球芭蕾
10
20
–12
–11
足球
大海
芭蕾
周末节目博弈
现代经济学所谓经济主体人的“理性行为”,被许多人误解为只是从自己
的利益出发。其实不是这样。现代经济学所说的理性行为,是经济主体人奔
着自己的目标函数的“最大化”而去,就是说努力在既有的约束条件之下使
自己的目标函数的函数值达到最大。
首先,理性的经济主体人有一个明确的“目标函数”,其次,他的行为是
努力让他的目标函数的“函数值”达到最大。这就是现代经济学的理性人假
设。所以,如果用通俗的语言讲,所谓理性人,就是目标明确的人。仅此而已,
岂有他哉!
看到这里,读者不免要问,这样简单的模式假设,何以概括大千世界那
态的现实世界。
以“目标明确”四个字为主要特征的理性人模式,概括力非常强,差别
在于各人的目标不同。如果某个人的目标函数是他个人财富的总值,从而他
的行为的目标是个人财富最大化,那么他的确是只考虑自己利益最大化的经
济主体人。但是如果某个人甲的目标函数是另一个人乙的幸福和快乐,那么
甲已经不是只关心自己利益的主体人了。符合这种模式的人很多,初级的母
爱,就大体上可以用这种目标函数之下的理性行为来描述。君不见,一些母
亲哪怕自己吃剩饭,看着儿女“享受”麦当劳,心里也高兴。
经济学者当中,流传着“进入目标函数了”的说法。原来,大千世界有
一些大多数人觉得不可理喻的行为,但是经济学者觉得还是可以理解。例如,
香港、广州都发现过个别居民喜欢收集垃圾的案例,他们自己满屋子都是垃
圾,臭气熏天,老鼠成群,惹得邻居十分恼火。但是在经济学者看来,他们
也是理性人,只不过他们把收集旁人看来是垃圾的东西作为自己的目标罢了。
底下最大公无私的人物了。
在我们已经讨论过的模型当中,西方的政治家可以说以选票数目作为自
己的目标函数,追求选票数目最大,以便当选议员、省长、州长甚至总统。
可口可乐公司和百事可乐公司可以说以自己的销售利润作为目标函数,追求
不该一律贬斥自利行为
前面谈了理性行为未必自利,更未必自私自利。但是这一节,我们进一
步谈谈不该一律贬斥自利行为。
觉得自利行为一定要损害别人,这是一些对现代经济学无聊批评的实质
内涵。居民想生活得好一些,企业想利润高一些,不都是天经地义的事情吗?
这当然是理性行为。现代经济学正是在这种自利的假设之下,给我们展示发
达市场经济的前景。如果你在伦理上还是接受不了希望自己好的理性行为,
老是觉得必须依靠希望别人好社会才能发展得好一些,那么为什么不换个角
度想想,现代经济学已经说明了“为自己”的社会会发展得很好,那么我们
这个许多人还为别人着想的社会,理应发展得比经济学展示的前景更好。这
样想,你会不会觉得舒服一些?
但是,完全不为自己着想就好吗?实在不见得。大家读过美国作家
(),我这里给出著名的短篇小说
The Gift of the Magi
欧·亨利《麦琪的礼物》
它的一个版本:吉姆和德拉小两口很穷。吉姆有一只挂表,但是穷得买不起
表链;德拉有一头金色的秀发,可穷得连梳子也买不起。圣诞节到了,吉姆
们都陷入非理性行为。
但是,我们可以专门建立一个模型来分析吉姆和德拉的圣诞礼物博弈:
小两口往常过着平淡而心心相印的生活,各得1;如果吉姆把表卖了给德拉买
梳子,吉姆得2,德拉得3;如果德拉剪去一头秀发换回表链给吉姆,德拉得
2,吉姆得3。这些应该讲得过去,或者你把2和3对调也行。但是吉姆卖表买
梳和德拉剪发换链同时发生,那么他们一定都非常非常伤心,伤心做了永远
难以弥补的蠢事,各得 – 4。这不是我罚他们,是他们自己的心境。
德拉
剪秀发换表链不剪
卖表买梳
吉姆
不卖
2
3
1
–4
–4
2
1
3
圣诞礼物博弈
有人喜欢悲剧美。笔者年过花甲,又因常为理性行为辩护遭误会,但是
每当认真地想到《麦琪的礼物》这个故事,仍不免心里流泪,美不起来。只
要不害人,真不该谴责为自己考虑。国人说的“保重身体,就是孝敬父母,
就是珍重朋友”,还是很有道理的。一向以来,舆论宣扬许多不顾身体不顾家
庭的无私奉献,在这些事迹背后和事迹以后,有不少叫人悲绝的不美的故事。
社会恐怕很难因为这些事迹就真正增加整体的祥和与福利。你说是不是?
顺便说说,西风东渐,国人也开始讲究礼物要让人惊喜。《麦琪的礼物》
告诉我们,惊喜是奢侈品,如果你还不富裕,你享受不起。
有趣的是,现在在一些发达国家,人们在送请帖的时候,会注明希望收
| 58 | 博弈论平话 |
到什么礼物。这样,礼物的“惊喜性”就靠边站了,而原来,礼物的“惊喜
性”正是我们许多人头脑里的发达国家文化的一个情景。这究竟是亵渎还是
进化,世人莫衷一是。让我们再看看吧,何必马上追求什么结论。发达国家
的一些超级市场,还标榜欢迎礼品退货,货款不是退给购买者,而是退给受
礼人。商业操作之下,礼品文化也开始讲究送礼别忘了附送购买礼品的发票。
这究竟是沆瀣一气,还是良性互动,同样留待世人评说。
情侣的拥挤博弈
拥挤,是人类社会面临的另外一个问题。我们国家比别人不如意的地方
很多,最难赶上别人的地方,恐怕就是我们比别人拥挤。偏偏在这样的背景
下,我们还要通过“黄金周”长假期这样的制度设置,制造进一步的拥挤,
真是不可思议。
现在,我们也用博弈论的工具,简单明了地讨论一下拥挤的制度毛病。
假设在一个小地方只有两对情侣,这个小地方只有一个小公园可去,公园里
面只有两张椅子可供情侣休憩。周末时分,假设情侣在家的满意程度为1,独享公
园的满意程度为4,分享公园的满意程度为2,那么两对情侣的拥挤博弈形势如下:
乙对情侣
去公园在家
去公园
甲对情侣
在家
41
11
21
24
两对情侣的拥挤博弈
为什么两对情侣分享公园的满意程度比较低呢?我们可以设想公园很小,
两张椅子非常接近,所以两对情侣各据公园的一张椅子时他们的满意程度,
比起一对情侣到公园来独享公园时要低。
我在杭州西湖旁边写作本书时,常常独自到西湖边走走。按照我的经验,
只要不是假日,市民或者游客在西湖岸边总是可以找到独自坐下来的一张椅
子,安静地度过一段时间。可是周末拥挤的时候情况就不一样了,至于长假
| 60 | 博弈论平话 |
期拥挤周,苏堤白堤上挤满了人,找到一张椅子可以坐下的机会更是微乎其
微。最要紧的是,在拥挤的时候哪怕你侥幸找到一张椅子坐下,你会是什么
心情?那个时候,你会感到面对的西湖也已经不是心目中的西湖了。
如果你大体上同意我上述说法,就不难理解上述博弈矩阵的2∶4了。老
实说,工作日流连西湖的感觉,比周末游览西湖的体验,好得太多。而在长
假期间,西湖一带却变成忍受拥挤的地方。
博弈形势清楚了,博弈的结果也就随之清楚:不论另外一对恋人是不是去
这个小公园,每对恋人都是去公园比较好。这是这个情侣拥挤博弈唯一的纳什
均衡。还是囚徒困境的形势。在这个均衡状态,每对恋人的满意程度都是2。
现在我们修改上述情侣公园博弈模型,在保持公园情况不变的前提下,
让这个小地方的情侣数目增加到4对,而且由于一些留给读者想象的原因,这
4对情侣总是两对两对统一行动。
模型的主要变化,就是拥挤程度增加。这时候,如果4对情侣同时到小公
园去,而小公园只有两张椅子,我们可以设想这时候他们各自的满意程度为0。
如果只有两对情侣一起到公园去,两对恋人各据一张椅子,那么正如前面说
过的,他们各自的满意程度都是2。至于在家不出门的,各自的满意程度还是
1,也和前面一样。这样,博弈的格局变成如下的表格:
三四两对
去公园在家
去公园
一二两对
在家
21
11
0 1
0 2
2×2对情侣的拥挤博弈
| 第二章 情侣博弈和协调博弈 | 61 |
在这个新的博弈中,每一方都没有全局的优势策略,也没有全局的劣势
策略,所以我们不能够使用劣势策略消去法来求博弈的纳什均衡。但是运用
相对优势策略下划线法,我们很容易看出这个博弈的两个纳什均衡:一个是
一二两对恋人去公园,三四两对恋人在家;另外一个均衡则相反,一二两对
恋人在家,三四两对恋人去公园。如果不是这两个均衡的结果,而是右下角
那样4对恋人都在家,那么就白白辜负了公园的景致,或者相反,像左上角
那样4对恋人都挤到小公园去,又大倒胃口。
眼看博弈有两个明显的纳什均衡,而且这两个均衡又比不出孰优孰劣,
那么怎么办好呢?
是的,这个新的博弈属于所谓协调博弈:两个明显的均衡都很好,但是
每次总是需要双方协调到一个均衡去才好。不然的话,或者互让,或者撞车,
都是很不理想的情况。
我们在后面会专门讨论协调博弈,现在只是指出,有些协调博弈的协调
默契是协调的一种方式
我和李杰博士编著、在中国人民大学出版社出版的大学本科《博弈论教
程》,在第一章的习题里面,有下面三个热身性质的题目:
1. 扑克牌只有黑红二色。现在考虑玩一种“扑克牌对色”游戏。甲
乙二人各出一张扑克牌。翻开以后,如果二人出牌的颜色一样,甲输给
乙一支铅笔;如果二人出牌的颜色不一样,乙输给甲一支铅笔。
试把扑克牌对色游戏表达为一个博弈。
2. 现在把上题的扑克牌对色游戏修改如下:甲乙二人各出一张扑克
牌。翻开以后,如果二人出牌的颜色一样,公证人奖励甲乙二人各一支
铅笔;如果二人出牌的颜色不一样,公证人不给任何奖励。
试把这新的扑克牌对色游戏表达为一个博弈。
3. 为了区别起见,前一个题目规则是甲输给乙或者乙输给甲的游戏
是一起出黑牌或者老是一直出红牌这样的默契。只要答案出现“默契”两字,
或者明确表达了实际上是默契的意思,这个题目就做对了。
上一节2×2对情侣的拥挤博弈中,有两个明显的纳什均衡,一个是一二
两对恋人去公园,三四两对恋人在家,另一个是一二两对恋人在家,三四两
对恋人去公园。这个博弈反复进行几次,博弈双方一定很快就会形成默契:
这次一二两对恋人留在家里,三四两对恋人到公园去,下次三四两对恋人留
在家里,一二两对恋人去公园游玩。依靠这样的默契,博弈参与人协调出对
于双方都比较好的结果。
有些人觉得,难度大的题目才可能“考”出学生的理解,难度大的题目
才有训练价值。我们不这样看。有些比较浅的题目,也可以考察学生的把握
程度。如果两个深浅不同的题目都能够启发读者加深对同一个概念的把握,
劣势策略消去法的讨论
在介绍了相对优势策略下划线法以后,有必要回过头来再稍许深入一点
看看第一章学习的劣势策略消去法。
除了本书开头作为引子的诺曼底战役模拟以外,我们在正式介绍劣势策
略消去法以后所讲的例子,消去的都是“全面严格”的劣势策略。例如在下
图价格大战博弈中,站在可口可乐的立场,因为高价得到的1和5在每个位置
都比低价得到的3和6小,所以可口可乐要删去它的高价策略。这里,“全面”
指的是每个位置都这样,“严格”指的是每个位置都严格地比出大小。同样,
站在百事可乐的立场,它也要删去自己的高价策略。
百事可乐
低价高价
3
3
65
15
6
1
低价
可口可乐
高价
价格大战
合作修路博弈也是这样,张三选择修路所得的1和–1,在每个位置都比
不修路所得的3和0小,所以张三要删去他的修路选择。李四也是这样。
再看下页第二个表格的例题博弈,考虑是否能够找出博弈的纳什均衡以及如
何找出博弈的纳什均衡的问题。读者看到,甲选择下策略所得的0和0,总是不
比选择上策略所得的800和0好。这么看来,甲应该删去他的下策略。同样,乙
选择右策略所得的0和1 000,总是不比选择左策略所得的600和1 000好,因此
乙应该删去他的右策略。这样做了以后,我们得到一个纳什均衡,就是(上,左)。
| 第二章 情侣博弈和协调博弈 | 65 |
李四
修不修
13
修
张三
–1
不修
3
0
0
1–1
合作修路博弈
乙
左右
上
甲
下
1 0001 000
00
6000
8000
消去法解例题博弈
做到这里,容易产生一个想法,就是这个博弈没有其他(纯)策略纳什
均衡了,因为成为(纯)策略纳什均衡的其他可能性,都被删去线删除了。
具体来说,就是删去线扫荡了表示所有其他三种(纯)策略组合的那三个格
子。这里需要说明,相对于后面将要介绍的所谓混合策略,迄今我们学过的
策略都是“纯策略”。至于为什么要叫做纯策略,只有到那个时候才能明白,
所以目前在需要强调的时候,我们姑且只是把迄今学过用过的策略,都写成
“(纯)策略”。
但是,这个博弈是否只有(上,左)这一个(纯)策略纳什均衡呢?不是。
只要我们运用相对优势策略下划线法做做,就可以发现,这个博弈还有(下,
| 66 | 博弈论平话 |
右)这个(纯)策略纳什均衡。
乙
左右
600
800
1 000
0
0
0
1 000
0
上
甲
下
下划线法解例题博弈
问题出在哪里呢?出在虽然甲选择下策略所得的0和0,总是不比选择上
策略所得的800和0好,但不是全面严格的劣。具体来说,甲选择下策略所得
的头一个0固然比选择上策略所得的800差,但是他选择下策略所得的第二个
0,却不比选择上策略所得那个0差。可是我们就这样把甲的下策略删去了。
这与我们原来要求的劣势策略消去法不符。
那么,只要判断一个(纯)策略不比某个(纯)策略好,就把它删去,
这种做法有没有合理性呢?
合理性还是有的。所谓一个(纯)策略不比某个(纯)策略好,当然是
指它在每一个位置都不比那个(纯)策略好。既然这个(纯)策略在每一个
位置都不比某个(纯)策略好,参与人就有道理不保留它。
博弈论把这种不是全面严格劣势的劣势策略,叫做“弱劣势策略”。注意
弱劣势策略不是比原来说的全面严格的劣势策略更差的策略,反而是可能比
原来说的全面严格的劣势策略好一点的策略。这里,“弱”的不是策略本身,
弱的是它与优势策略的差距,就是说差距没有那么大。相对于某个优势策略
的两个劣势策略,一个差距大,一个差距小,当然是差距弱的要强一点。
| 第二章 情侣博弈和协调博弈 | 67 |
虽然删去弱劣势策略有它的合理性,问题是这样做的杀伤力比较大。在
例题博弈中把另外一个纳什均衡“杀”掉,就是一个例子。本书特意用虚线
表示这种可以叫做“弱劣势策略消去法”的做法,以示区别。
令人欣慰的是,虽然弱劣势策略消去法的杀伤力比较大,但是不会把所
有(纯)策略纳什均衡都“杀”掉,而且做出来的那个(纯)策略纳什均衡,
第三章
简单博弈模型的应用
这一章我们介绍若干建立博弈模型讨论现实的经济问题和社会现象的例子。
智猪博弈和搭便车行为
本书迄今讨论过的博弈,主要是囚徒困境博弈和情侣博弈。有些读者可
能会说,囚徒困境和情侣博弈都那么简单,还需要什么博弈论分析吗?其实,
我们是利用这两种最典型的博弈,引入博弈三要素、参与人的优势策略和博
弈的优势策略均衡、参与人的相对优势策略和博弈的纳什均衡等重要概念,
说明劣势策略消去法和相对优势策略下划线法等基本方法。我们还谈到共赢
等其他概念。
如果你真的觉得囚徒困境和情侣博弈简单,说明你对博弈论有灵性。除
了提醒要注意以为懂了实际却不懂得多少的可能以外,我们更愿意强调的是,
简单的例子如果能够说明方法,能够启迪思维,就有它的价值。这一节首先
讲博弈论著作中常见的另一个简单的例子game of boxed pigs,张维迎教授等
学者把它翻译成。
“智猪博弈”
笼子里面有两只猪,一只比较大,一只比较小。笼子很长,一头有一个
按钮,另一头有饲料的出口和食槽。按一下按钮,将有相当于10个单位的猪
食进槽,但是按按钮并且跑到食槽所需要付出的“劳动”,加起来要消耗相当
于2个单位的猪食。问题是按钮和食槽分置笼子的两端,按按钮的猪付出劳动
跑到食槽的时候,在食槽旁边坐享其成的另一只猪早已吃了不少。如果大猪
守在食槽旁边,大猪呼啦吃到9个单位,因为按按钮而后到的小猪只能吃到
1个单位;如果它们同时按按钮同时跑到食槽,大猪能够吃到7个单位猪食,
小猪吃到3个单位;如果小猪守在食槽旁边而大猪按按钮,小猪可以吃到4个
单位,而后来赶来的大猪可以吃到6个单位猪食。
| 第三章 简单博弈模型的应用 | 71 |
小猪
按等
按
大猪
等
–10
90
1
5
4
4
智猪博弈
智猪博弈的具体情况就如上面的矩阵。左上方的格子表示,如果两只猪
同时按按钮,同时跑向食槽,大猪吃进7个单位,付出2个单位,得益5个单
位,小猪吃进3个单位,付出2个单位,实得1个单位;右上方的格子表示,
大猪按按钮,小猪先吃,大猪吃进6个单位,付出2个单位,得益4个单位,
小猪吃进4个单位,实得4个单位;左下方的格子表示,大猪等待,小猪按按
钮,大猪先吃,吃进9个单位,得益9个单位,小猪吃进1个单位,但是付出
了2个单位,实得–1个单位;右下方的格子则表示双方都懒得动,所得都是0。
比较1,–1和4,0两列数字,我们知道在食槽旁边等待是小猪的严格优
势策略,按按钮是小猪的严格劣势策略。先把小猪的劣势策略消去。在剩下
的右边一列中,比较4和0,这时候等待就变成了大猪的劣势策略(注意,是
现在才变成劣势策略)。把它也删去,就得到智猪博弈的结局:小猪只是坐享
其成地等待,每次都是大猪去按按钮,小猪先开始吃,大猪再赶来吃。
智猪博弈有许多应用。这次先讲灯塔建造的经典例子。在美国的大湖地
区,你可以看到许多古老的灯塔。当年,大航运公司因为船舶多,航班频密,
迫切需要建造灯塔,但是小航运公司在这方面的积极性就比较低。结果大公
司花钱建造灯塔,公司从建造灯塔中所获得的效益超过了灯塔的花费,所以
| 72 | 博弈论平话 |
这项投资对于大公司而言是值得的。但是因为大公司这样做了,小公司因此
就可以“搭便车”,也得到好处。
另外我们可以讲一个字面意义上真正“搭便车”的例子。在发达国家,
除了日本许多人口稠密的地区和纽约这样人口稠密的城市以外,大部分家庭
都有自己的汽车。人们出行,都要自己开车。在那样的地方,公共交通一般
都不发达,如果你没有自己的汽车,往往就会寸步难行。我们在美国的留学
生,哪怕经济很不富裕,也要先买一辆二手车来用,就是这个道理。
如果你早就想到一个地方去,可是因为没有车子一直未能成行,碰巧某
为什么大股东挑起监督经理的重任
考察现代企业制度,智猪博弈最典型的运用,是说明大股东和小股东的
角色差异和行为差异。
在一个公司里面,股东应该承担监督经理的职能。但是监督经理的工作是
很不容易的,需要花费很大的精力和很多的时间去搜集信息,并作出分析。一
句话,“监督成本”是很高的。但是股东有大有小。别人向一家公司投资1个亿,
是这家公司的大股东,你买了这家公司几手股票,也是这家公司的小股东。假
定公司运营得好赢利较多时,公司分红会是运营不太好时的几倍,那么虽然你
这个小股东和他这个大股东都希望公司运营得好,但是利益关切程度却实在相
差很远。设想公司运营得好,大股东的分红可以增加1 000万元,你这个小股
东的分红可以增加1万元。增加1万元分红当然是好事,但是如果这需要你密
切监督经理的工作才能实现,而密切监督经理的工作,本身的代价就远远超过
1万元,那么你就没有多少积极性去密切监督经理们的工作。大股东就不一样,
哪怕花几万元十几万元的代价雇人监督经理的工作,也是很值得的:几万元十
几万元代价的监督可以换来近千万元的分红增加,何乐而不为?
可见,大股东相当于智猪博弈中的大猪,小股东相当于小猪。在大小股东
是否密切监督经理工作的博弈中,大股东因为利益攸关会担当起搜集信息监督
另外一家由于某些原因近年来手头非常拮据。这两家有一条年久失修的路与
外面的公路网连接。手头拮据的一家,在别的更紧迫的地方钱都不够用,怎
么拿得出钱来修路呢。对于他来说,路是该修的,但是没有钱也就只好将就
将就。那么,富裕的一家怎么办?本来,他可以等到邻居愿意拿钱出来修路
的时候再和他商量两家分摊修路的费用,但是他等不了。这不仅因为他很难
容忍每天要走坑坑洼洼的路,还因为路是否修好对他的影响太大。比方说花
2 000美元可以修好这条路,路修好以后给他带来的新增经营利润等好处相当
于3 000美元,那么虽然最理想的情况是两家各出1 000美元,他可以因为修
路而得益3 000–1 000=2 000美元,但是自己等不及而全资把路修好的话,也
可以得益3 000–2 000=1 000美元。在这个例子中,你还可以设想富裕的一家
不仅生产活动繁忙而且社交活动很多,路不好会很糟糕,而贫穷的一家许多
活动都保持在很低的水平,路是否修好一时不太要紧。可就不是活生生的智
猪博弈的形势?
经济实力较强的一家,对公用品的需要比较迫切。如果公用品提供了,
他得到的好处也多,他就是智猪博弈中的“大猪”。比较穷的一家,对公用
品就不那么讲究了。比方说,道路好一点儿当然好,道路差一点也凑合着过。
让他掏那么多钱来提供公共品,他是不肯的。他就是智猪博弈中的“小猪”。
既然“大猪”不能忍受不提供公用品的情形,又没有合适的制度安排,最后
猎人博弈和帕累托优势
这一节讲另一个著名的博弈模型——猎人博弈。设想在古代的一个地方,
有两个猎人,那时候,狩猎是人们的主要生计。为了简单起见,假设主要的
猎物只有两种,鹿和兔子。在古代,人类的狩猎手段比较落后,弓箭的威力
也有限。在这样的条件下,我们可以进一步假设,两个猎人一起去猎鹿,才
能猎获一只鹿,如果一个猎人单兵作战,他只能打到4只兔子。从填饱肚子
的角度来说,4只兔子算它能管4天吧,一只鹿却差不多能够解决一个月的食
物问题。这样,两个猎人的行为决策,大体上就可以写成以下的博弈形式:
乙
猎鹿打兔
猎鹿
甲
打兔
10
10
0
4
4
0
4
4
猎人博弈
打到一只鹿,两家平分,每家管10天吧;打到4只兔子,只能供一家吃4
天。表格中的数字就是这个意思,每个格子里面,左下角的数字是甲的得益,
右上角的数字是乙的得益。如果他打兔子而你去猎鹿,他可以打到4只兔子,
而你将一无所获,得0。
如果对方愿意合作猎鹿,你的最优行为是与他合作猎鹿;如果对方只想
自个儿去打兔子,你的最优行为也只能是自个儿去打兔子,因为这时候你想
猎鹿也是白搭,一个人单独制服不了一只鹿,所以你将一无所获。这样,运
| 76 | 博弈论平话 |
用前面讲过的相对优势策略下划线法,我们就知道,这个猎人博弈有两个纳
什均衡:一个是两人一起去猎鹿,得(10,10),另一个是两人各自去打兔子,
得(4,4)。
两个纳什均衡,就是两个可能的结局。那么,究竟哪一个会发生呢?是
一起去猎鹿还是各自去打兔子呢?这就和情侣博弈一样,结局究竟是哪一个
纳什均衡,不能完全由纳什均衡这一事实本身来确定。
比较支付分别是(10,10)和(4,4)两个纳什均衡,我们明显地看
到,两家一起去猎鹿的好处比各自去打兔子的获益要大得多。按照长期合
作研究的两位博弈论大师美国的(John C. Harsanyi)教授和德国的
哈萨尼
泽尔滕
(Reinhard Selten)教授的说法,甲乙一起去猎鹿得(10,10)的纳
什均衡比两人各自去打兔子得(4,4)的纳什均衡具有(Pareto
帕累托优势
Advantage)。这个猎人博弈的结局,最大可能是具有帕累托优势的那个纳什
均衡——甲乙一起去猎鹿得(10,10)。
经济学思想史上,人们对于经济如何才算是有效率的,一直有很不相同
的看法。例如太平天国信奉“不患寡,患不均”,就很有代表性,但是大家都
知道,只讲究平均,不能作为效率的标准。公平是经济学中最富争议的概念,
效率也是很有争议的一个概念。
帕累托
(Vilfredo Pareto,1848~1923年)是法国巴黎出生的意大利经济
学家。自从现代经济学主要关注社会资源的配置以来,经济学家求同存异,
逐渐撇开一般效率评价的许多分歧,倾向于接受以帕累托命名的所谓
帕累托
效率
(Pareto Efficency)标准:经济的效率体现于配置社会资源以改善人们
的境况,主要看资源是否已经被充分利用。如果资源已经被充分利用,要想
再改善,我就必须损害你或别的什么人;要想再改善,你就必须损害另外某
| 第三章 简单博弈模型的应用 | 77 |
个人。一句话,要想再改善,任何人都必须损害别的一些人了,这时候就说
经济已经实现了帕累托效率。相反,如果还可以在不损害别人的情况下改善
任何人,就认为经济资源尚未充分利用,就不能说经济已经达到帕累托效率。
这时候就说经济处于帕累托非效率的状态。
具体到我们的猎人博弈,比起(4,4)来,(10,10)不仅是总额的改善,而
且每个人都得到很大改善。猎人博弈中支付为(10,10)的均衡对支付为(4,4)
的均衡具有帕累托优势,就是这个意思。从支付为(4,4)的均衡到支付为
(10,10)的均衡,博弈的每个参与者都得到改善。
| 78 | 博弈论平话 |
斗鸡博弈和航行规则
斗鸡博弈
(或者叫做小鸡博弈)的名称来自美国儿童之间的一种说法:
如果说谁是chicken(小鸡)或dove(鸽子),就等于说谁是胆小鬼。斗鸡博
弈原来的英文名称就是the game of chicken。看来,在许多男童的心目中,(小)
鸡代表胆小,是世界各国的共通之处。中国的孩子从小玩“老鹰捉小鸡”,就
是一个证明。正巧,美国孩子也把老鹰(hawk)选做勇敢的象征。
设想吉米和东尼这两个小孩被伙伴们鼓动得要进行一场勇气的博弈,两
人分别从一条独木桥的两端冲向对方,谁先胆怯退下让路,谁就是小鸡。做
父母的都清楚,孩子被别的孩子鼓动得这样做,并非没有可能。这是为人父
母者无穷无尽的担心的重要来源之一。那么,吉米和东尼这场斗鸡博弈的对
阵形势怎样呢?请看下图:
东尼
退怯勇进
3
退怯
吉米
勇进
2
4
0
3
2
0
4
斗鸡博弈
如果吉米退怯东尼勇进,吉米会感到在小伙伴们的心目中威信扫地,得
益为2,而东尼以胜利者自居,得益为4;如果吉米勇进而东尼退怯,他们的
得益正好相反;如果吉米和东尼都退怯不前,哪怕两人内心其实都胆怯,但
是在旁边的小伙伴看来却两人都还“虎视眈眈”,所以他们自己可以不感觉太
| 第三章 简单博弈模型的应用 | 79 |
丢脸,各得3;如果两人都拼死勇进,那么不是碰得头破血流就是两人同时下
水,各得0。这就是上面的博弈矩阵。
有些读者可能会问:丢脸了为什么还得2,头破血流了为什么还得0而不
是负数?原来,这是因为许多经济学家不喜欢负数。不过对于分析斗鸡博弈
来说,不喜欢负数并不要紧。事实上,如果你那么较真,觉得负数才比较合理,
那么不妨把上面斗鸡博弈矩阵中的数字全部都减2,得到下面新的表示:
东尼
退怯勇进
1
1
0
勇进
2
–2
0
–2
2
退怯
吉米
斗鸡博弈另一版本
虽然具体数字不相同,但是因为每个位置的数字不多不少都是相差2,所
以两个矩阵表示在分析博弈结果时的作用完全一样。由于这个原因,我们说
上述两个博弈矩阵完全。为了确定起见,我们就拿上面原来的矩阵进行
等价
分析。利用相对优势策略下划线法马上就可以知道,斗鸡博弈有两个纳什均
衡,一是吉米勇进东尼退让,吉米得4东尼得2,二是吉米退让东尼勇进,吉
米得2东尼得4,都是一胜一负。
两个纳什均衡,就是两种可能的结果。实际博弈结果究竟是哪一个呢?
还是那句话:要由别的因素来决定。在情侣博弈中,我们设想过如果正好是
丽娟的生日大海就高姿态一些,等等。上一节,我们还讲过可以按照帕累托
标准确定博弈的实际结果。以后,我们还要讲按照所谓风险优势确定博弈的
| 80 | 博弈论平话 |
实际结果,展望通过制度设置引导出比较好的博弈结局。现在借斗鸡博弈,
讲讲大海航行的避让规则。这也是一种制度设置。
斗鸡博弈的另一个真正不同的版本,是像下面那样把3改为1。但是读者
马上可以看出,策略选择并没有变化,特别是纳什均衡没有变化。
东尼
退怯勇进
退怯
吉米
勇进
2
4
0
1
1
2
0
4
斗鸡博弈新版本
利用这个斗鸡博弈,可以描述海上航行中船舶交会的形势。两艘相向而
行的船舶,双方互不相让就会撞船,都得0;两艘向十字交会点行驶的船舶,
双方互不相让也会撞船,也得0。当然,双方都让着不走,也不好,各得1。
一方让一点,让另一方先通过,先通过的得4,让路的得2,这都比一起抢行
造成事故或一起退让双方浪费时间来得好,这就是下面这个船舶交会博弈的
两个纳什均衡。
乙
让后争先
让后
甲个
争先
2
4
0
1
1
2
0
4
船舶交会博弈
问题是谁先行谁让行,不能等待临时谈判。海上避碰,至少要像许多国
家规定车辆在标志不明显的马路上靠右走那样,定下不容谈判的规矩,以便
对号入座,避免临时商量。人们规定,迎面交会的船舶,各向右偏一点儿,
问题就解决了。十字交会的船舶,则规定看见对方左舷的那艘船要让,慢下
来一点儿或者偏右一点儿都可以。这就从制度上规定了避让的方式。
右舷
原速直行
左舷
偏右慢让
左舷右舷
银行挤兑的成因和预防
假定有一个银行,只有两个储户,银行的全部资金就是这两个储户的存
款。每个储户存了100万元的定期存款,银行就拿总数为200万元的这笔钱
去作投资,就是把钱贷给某个公司去做项目。贷款当然是定期的。按照设想,
项目完成投资收回以后,银行可以拿出240万元偿还给储户,每个储户将得
到120万元。120>100,这正是定期存款的激励。
但是根据现行法律,如果储户在没有到期的时候把定期存款提走,那么只
要银行有能力,就必须允许他提走原来存入的100万元。至于银行和它投资的
公司的关系,本来,如果公司破产,银行到期也不能收回全部投资,不过为了
讨论问题简单起见,我们假设银行是向一家经营很好的公司投资。如果银行在
投资期限未到的时候要从公司抽回资金,它就要因为违反合同而受到惩罚。
现在的问题是,如果有储户在期限未到的时候要把存款抽回去,那么因
为按照假设这个银行只有两个储户并且它的全部资金就是那两个储户的存款,
银行就不得不从它投资的公司把资金抽回。银行因为提前撤回资金要受罚,
从而收回的资金远少于200万元,可以拿出来支付给储户的比如说只有140万
元。这时,我们可以写出两个储户是否等待期满以后才取回存款的博弈如下:
储户乙
提前取款到期取款
提前取款
储户甲
到期取款
70
70
100
40
120
100
120
40
银行挤兑
| 第三章 简单博弈模型的应用 | 83 |
双方同时提前抽调存款,因为银行只有140万元可供支付,每人可得70
万元;双方期满才支取存款,每人可得120万元;如果只有一方提前支取,那
么他得到原来的存额100万元,而银行因为被迫提前抽回投资,可动用资金
只有140万元,当另一储户在期满时来支取他的存款的时候,银行就要破产,
他顶多只能得到40万元的补偿,远远小于原来的存款额100万元。
明白了这样的博弈形势,我们用相对优势策略下划线法,很快可以知道
这个博弈有两个纳什均衡,一个是最好的,即双方都待期满才来兑现他们的
存款,每人得120万元;另一个就很不好,即双方争先恐后都要同时提前抽
回他们的存款,这就造成银行挤兑。问题是,如果一个储户有提前取款的动
向,另一个为了自己的利益不受损失,一定会马上跟进,要求同时提前提取。
这就会发生银行挤兑。
在这个例子中,如果觉得银行只有两个储户不可思议,那么你不妨把它
想象成银行有两万个储户,一边一万个,双方博弈,分析方法还是一样的。
事实上,绝大多数银行挤兑都发生在传闻银行经营不好有可能破产的时候,
一旦破产,储户就可能遭受严重损失。所以,银行一定要使自己的资金来源
多元化,一定要使自己的投资适当分散,一定要注意良好的经营业绩,还一
定要掌握相当比例的准备金。不然的话,一点儿风吹草动就可能让它在挤兑
之下破产。银行破了产,损失最大的还是广大储户,通常还造成严重的社会
动荡。各国中央银行不仅要求商业银行自己有足够的准备金,而且要求商业
即使银行破产,储户10万美元以下的私人存款,将由联邦保障局负责兑现。
在发达国家的银行开户,一定要清楚你走进去的银行,储户利益是否得到了
这样的保证。
前面为了简化讨论,假设银行只有两个储户;后来放宽,假设银行有两
万个储户,但是这两万个储户的行为,只有两种模式,两万个储户按照这两
种模式,分成完全相等的两组,每组一万户的步调完全一致。仔细想想,假
设条件这样“放宽”,其实并没有放宽。
真正的放宽,可以有许多做法。现在我们提供下面这样一种:假设银行
有两万个存款额度、存款期限都相等的储户,但是其中只有少数几个提前取
款。你不妨自己运用博弈论的方法或者其他经济学的方法论证一下,那少数
数据不同,结果各异
在第一章“公共品供给的囚徒困境”那一节中,我们讲过一个例子:设
想乡下某地有一个只有两户人家的小居民点,由于道路情况不好,与外界的
交通比较困难。如果修一条路出去,每家都能得到3那么多好处,但是修路
的成本相当于4。要是没有人协调,两家各自打“是否修路”的小算盘,那么
博弈的形势如下面的表格所示:如果两家联合修路,每家分摊成本2,各得好
处3,两家的纯赢利都是1;如果一家修另一家坐享其成,修的一家付出4而
得到3,赢利–1,坐享其成的一家可以白白赢利3。这时,因为没有人协调,
站在各自私利的立场,修路对于甲来说是劣势策略,对于乙来说也是劣势策
略。于是,运用严格劣势策略消去法,就可以知道这个博弈有唯一的纳什均
衡,就是双方都不修路,双方都得0。
乙
修不修
修
甲
不修
–1
3
0
0
13
1–1
公共品提供博弈之一
但是,如果每家因为修了路将得到的好处不是3而是5或者更多,博弈的
情况将发生根本的变化。以好处是5为例,这时候如果合伙修路,每人分摊
成本2,得到好处5,合伙修路每家的纯得益是3;如果一家单独修路,他承
担全部成本4,纯得益是5–4=1,不投资修路的一家占便宜搭便车,纯得益
| 86 | 博弈论平话 |
是5。这样,博弈情况就如下面的新表:
乙
修不修
3
3
1
5
0
1
0
5
修
甲
不修
公共品提供博弈之二
现在,双方都没有全面严格的劣势策略,所以不能使用劣势策略消去法。
但是运用相对优势策略下划线法,我们容易知道这个博弈有两个纳什均衡:
甲修路乙坐享其成,或者乙修路甲坐享其成。对方坐享其成固然令人不愉快,
要紧的是修路者觉得单独花钱修路对自己还是有好处的。
比较上下两种情况,我们可以看出,在好处比成本多不了多少的情况下,
如果没有人协调,公共品的供应就缺乏激励保证。这是因为一家独力承担成
本的话,设置公共品对于他来说将得不偿失。但是,在好处比成本多很多的
情况,人们就比较愿意独力承担提供公共品的成本。可见,博弈中0、3、4、
5这些模拟数据要基本反映实际情况,不可太随意,这是一个非常重要的问题。
事实上,如果一座石桥塌了,因为修桥的成本大,没有政府或制度协调的话,
人们往往宁愿将就着绕道或趟水过河。但是如果公寓走道的电灯坏了,因为
一个灯泡的成本很有限,住家独自买一个新的灯泡换上去的可能性就比较大。
前面我们讲过帕累托效率的概念:如果资源已经被充分利用,要想再改
善某些人的处境就必须损害其他什么人了,就说这个经济已经实现了帕累托
效率,或者说已经达到了(Pareto optimal)。本节第一个博弈说明,
帕累托最优
| 第三章 简单博弈模型的应用 | 87 |
非合作博弈的结局常常不是帕累托最优的。这种情况的博弈虽然只有两个局
中人,但是它的结局其实就是“三个和尚没水喝”的结局。事实上,二人博
弈的分析也能够帮助我们说明不少“多人博弈”的前景。
三个和尚没水喝的局面是可以作帕累托改善的:设想有人协调一下,安
排一个轮流挑水或抬水的制度,三个和尚的处境都会得到改善。修路博弈的
第一种情况也是这样,如果有人协调一下分摊修路成本,两家的处境都会从0
改善到1,双方就有积极性分摊修路的成本了。
值得注意的是,第二种情形的修路博弈的两种可能的结局都已经是帕
累托最优的,就是说已经不能再作帕累托改善,不能再改善一个人而不损
囚徒困境两败俱伤的隐含条件
我们在“为什么主要讨论非合作博弈”这一节,谈过经济活动中的卡特
尔现象,那就是几个大企业联手或勾结起来形成对行业的垄断,谋求最大利
润。我们也指出,卡特尔行为本身就提供了瓦解卡特尔的激励。所以在人类
经济活动中,除了石油输出国组织欧佩克还算是比较成功的以外,卡特尔行
为成功的例子实在很少。
现在,我们也可以从“数据不同,结果各异”的角度,谈谈欧佩克作为
一个卡特尔为什么还能够比较成功,认识囚徒困境之所以导致两败俱伤实际
上存在隐含条件。
原始的囚徒困境模型是这样的:
乙
坦白抵赖
–2
–2
0–1
–3–1
0
–3
坦白
甲
抵赖
囚徒困境
乙
低价高价
低价
甲
高价
1
1
32
02
3
0
价格大战
于是,运用劣势策略消去法,我们知道,如果甲乙这两家企业组成高价
联盟卡特尔的话,这个卡特尔容易瓦解。两家企业总是要偷偷降价,引发两
败俱伤的价格大战。
其实这需要一个前提条件,那就是两家企业的实力相当。很可惜的是,
许多读者在学习博弈论的时候,都没有领悟这个前提条件,许多院校在讲授
博弈论的时候,都没有点出这个隐含条件。这样一来,就很难从博弈论的角
度说明,为什么有些卡特尔还是可以成功。
现在,我们对比讨论价格大战囚徒困境模型中两家企业实力相当的情形
和两家企业实力差距很大的情形,看看结果会有什么不同。
首先是两家企业实力相当的情形,他们的博弈可以表达为:
乙
结果自然是走向两败俱伤的那个唯一的均衡,从而如果它们结成高价联
盟卡特尔,这个卡特尔不会稳定。
但是如果两家企业的实力差距很大,比方说甲乙两家企业实力差距是9∶1,
那么博弈可以表达为:
乙
低价高价
2
18
?4
?36
30
0
低价
甲
高价
实力悬殊价格大战
三个格子里面的利润赋值,都很自然。左上方格子和右下方格子的数据
说明,不论是两家企业都采取高价策略还是都采取低价策略,两家企业实现
的利润都是9∶1的关系。另外,实力相当情形和实力悬殊情形左上方格子
利润赋值之间18+2=10+10的关系,体现市场容量相同;两种情形右下方格子
利润赋值之间36+4=20+20的关系,也体现市场容量相同。右上方格子里面30
和0的利润赋值也很清楚:既然实力相当情形面对对手的低价竞争你采取高
价策略,利润也降为0,那么实力比较小的企业面对强大对手的低价竞争还是
采取高价策略,利润自然为0。
但是左下方格子里面两个利润赋值,却值得我们仔细捉摸。这个格子反
映的是实力小的企业乙采取低价策略、实力大的企业甲采取高价策略的那样
一种对局情况。这时候,市场当然“钟爱”企业乙,倾向于企业乙,可是因
为企业乙实力比较弱,它“吃不下”那么大的市场份额,结果虽然市场倾向
| 第三章 简单博弈模型的应用 | 91 |
于它,市场的一个很大的份额还是要“留给”实力强大的对手——企业甲。
由此可见,左下方格子右上角企业乙的利润赋值,达不到30那么大,而左下
角企业甲的利润赋值,也不会减到0那么小。
那么究竟赋值多少比较合理呢?这就需要对企业生产能力的经济扩张有
比较清晰的把握。为此需要注意,企业的实力,不仅反映在现时的生产能力
上,而且反映在生产“经济扩张”的能力上。
“生产扩张”容易理解。比如订单多了,生产就扩张了,比方说从原来生
产1万件衬衫,扩张到后来生产2万件衬衫、3万件衬衫、10万件衬衫。原则
上说,企业生产扩张的能力是很大的,比方说一家服装生产企业,订单多了,
哪怕它自己生产不过来,也可以安排其他企业为它生产,然后以它自己的品
牌销售出去。问题是,这样做的时候成本往往上升。所以随着生产的扩张,
扩张到一定程度以后,再扩张下去这种生产就会变得不经济了。所以,单纯
说企业生产能力的扩张是没有多少意思的,要紧的是企业生产的经济扩张能
力,就是要看企业的生产扩张了多少倍,仍然还是经济的生产。
事实上,如果不是盯着企业生产的经济扩张能力,那就没有企业经济实
力之分。比方说甲乙企业现在的产出大约是9∶1,我们说乙企业实力比较弱。
但是如果乙企业可以轻易把它的生产经济地扩张10倍甚至20倍,我们还能够
说它的实力不如甲企业吗?
明白重要的是企业生产的经济扩张能力以后,我们在进一步的讨论中假
设,甲乙两家企业生产的经济扩张能力都是2,也就是说,他们顶多把各自的
生产扩张到原来的两倍,超过这个倍数,生产就会变得不经济。
这样一来,我们就知道,虽然市场倾向于采取低价策略的企业乙,但是
因为企业乙的经济扩张能力是2,所以还是只有两成的顾客能够享受到企业乙
| 92 | 博弈论平话 |
的低价产品(原来是一成),剩下八成的顾客还是要接受企业甲的高价产品,
从而按照原来高价的时候每实现一成市场份额获得利润4的赋值,我们可以
设想,获得八成市场份额的企业甲实现的利润,应该在8×4=32左右。而企
业乙实现的利润,应该是2×2=4。
最后需要注意,左下方格子情形中的市场容量,比右下方格子情形中的
大,所以那个32应该向大的方向修正。
于是我们得到:
乙
低价高价
低价
甲
高价
2
18
44
32+36
30
0
实力悬殊价格大战
从而均衡是虽然乙企业实行低价,甲企业仍然维持高价,而不是两家企
业展开价格大战。
由此可见,如果实力差距很大的两家企业展开价格竞争,大企业是犯不
着与小企业那么计较的,因为市场大局如何,对大企业影响最大。如果大企
业也和小企业“一般见识”,自己的损失会更大。上述模型同样也可以说明我
们在前面所说的大股东要挑起监督经理的重任的道理。博弈论大师迪克西特
用一句话来概括这种情况,那就是:贵人的行为理应高贵。
在欧佩克当中,沙特的实力明显大于其他国家。正是由于沙特扮演上
述模型中大企业的“高贵”角色,所以磕磕碰碰之下,欧佩克还算是一个
| 第三章 简单博弈模型的应用 | 93 |
比较成功的卡特尔。只是需要注意,欧佩克主要的手段,不是协调价格,
而是协调产量。读者可以尝试自己建立产量决策的囚徒困境模型,展开同
样的讨论。
当然,以上讨论是就一次博弈的价格大战囚徒困境展开的。如果大企业
禁鸣喇叭与交通顺畅
差不多10年前开始,广州市区禁止机动车鸣喇叭。这是顺应民意的一项
制度设置。我国一些城市的噪音污染十分厉害。除了工地和装修以外,城市
噪音的主要来源是机动车的马达和喇叭。马达噪音由几十万辆机动车的先天
质量决定,一下子要治也难,成本负担不起。鸣喇叭,却可以先治。因为实
施成本不是那么大,这项制度有很好的可行性。
汽车有喇叭,但是在一般情况下不许鸣叫,可算中国特色的制度创新。
笔者在美国生活过较长时间,那时候也自己开车。除了路考驾驶执照的时候
按照考官的指令摁响过喇叭说明车况良好以外,还真没有多少其他摁喇叭的
记录。在美国,其实倒是可以鸣喇叭的。那么,为什么我和绝大多数美国人
一样,绝少摁喇叭呢?主要是因为行人车辆都很守规矩,没有摁喇叭的必要。
其次,无缘无故摁响喇叭,就像开会或听课时打哈欠或者晃腿一样,被认为
是教养不足的表现。在那样的环境里,一方面没必要,另一方面行为不“上
等”,自然就很少发生乱摁喇叭的事情。
和人家比较,我们这里行人和车辆原来都比较没有规矩和不守规矩。首
先是没有规矩,或者规矩不明确。例如行人怎样走过不设交通灯的斑马线,
就没有明确而且合理可行的规矩。与此相联系的,就是随之而来的人们缺乏
礼让意识。谁礼让谁吃亏的现实,使我们的交通博弈陷入了囚徒困境。
在这个交通博弈中,若对方礼让我也礼让,大家顺畅都可以得8。如果别
人礼让我抢行,我占了便宜可以得9,对方只能得1,所以站在自己的利益上,
行人
礼让抢行
礼让
汽车
抢行
8
8
1
9
2
1
2
9
行人车辆交通博弈
每个参与人的劣势策略,抢行则是优势策略。运用劣势策略消去法,可以知
道博弈的结局是大家都抢行,大家都只得2。我们的交通博弈,就这样被锁定
在大家都争抢大家都吃亏的“双输对局”(2,2)的位置。
因为我国绝大多数司机是职业司机,所以首先要从要求司机礼让入手解决
城市交通的困境,未必不是合理的切入。这就是下面汽车禁鸣喇叭实际上要求
汽车礼让的博弈。具体来说,我们用双实线表示不许汽车抢行的制度设置。
行人
礼让抢行
礼让
汽车
抢行
12
92
8
8
1
9
制度下的交通博弈
但是禁鸣喇叭最后是否能够同时达到交通改善的结果,是否能够真正把
交通博弈引导到规矩礼让大家受益的“双赢对局”(8,8),现在要看行人和
单车是否能够作出响应。目前的实际情况就是,行人和自行车没有这个自觉
| 96 | 博弈论平话 |
性,常常不理会人行道的红灯,硬是挤过马路,让汽车无所适从。这也难怪,
当汽车被制度规范住了的时候,汽车已经没有选择。在上面矩阵表示的博弈
中,行人抢行可以得利,于是(汽车礼让,行人抢行)行人得9汽车只得1的
对局,就成为新制度下的纳什均衡。
既然行人和自行车不能自觉回应,照理说就该设置罚则,让那个9至少
降到7,甚至更低,才能达到相互礼让各得8的纳什均衡,实现相互礼让、交
通顺畅的目标。论人均道路面积,香港恐怕比不上内地;但是香港规矩清楚,
管治严厉,交通的通畅度却比内地高许多。这值得我们深思。我们禁鸣喇叭
的初衷是降低城市噪音水平,但是我希望也能够从这里发展起交通比较顺畅
的前景。从交通的角度说,禁鸣喇叭,可以是走出上面说的“双输对局”的
第一步。但是必须有第二步跟上来,规范行人和自行车。否则,就像广州一
度那样,长期受气的汽车再也耐烦不住,和行人自行车抢在一起。
行人
礼让抢行
礼让
汽车
抢行
8
8
12
92
1
(9→)7
梦想的交通博弈
我有一个梦:大家都认识到抢行是“不上等”的行为,自己从道义上把
抢行得到的好处从9降到7甚至更低,实现车辆和行人、自行车相互礼让大家
顺畅的双赢前景。
| 第三章 简单博弈模型的应用 | 97 |
串通作弊和风险优势
博弈论讲到现在,读者可能已经有这样的体会:重要的是把一个博弈的
矩阵表格写下来,至于一个博弈叫做什么博弈并不要紧,有关的策略叫做什
么策略也不要紧。好的故事可以有助于理解,好的名字可以有助于记忆,名
字和故事都可能带有启发性。但是名字和故事并不影响博弈本身的分析,特
别是不影响博弈的纳什均衡,不影响博弈的结果。
有一个博弈的矩阵表示如下。既然策略叫做什么名字并不要紧,我们就
把左方局中人甲的策略叫做“上”策略和“下”策略,把上方局中人乙的策
略叫做“左”策略和“右”策略。运用相对优势策略下划线法,我们马上知
道这个博弈有两个纳什均衡,一个是左上角的格子,甲选择上策略乙选择左
策略双方得(9,9),另一个是右下角的格子,甲采用下策略乙采用右策略双
方得(7,7)。那么,两个纳什均衡之中,究竟哪一个发生的可能性比较大呢?
乙
左右
9
9
0
8
7
0
7
8
上
甲
下
任意的博弈矩阵
我们不妨先只站在甲的位置分析一下前景。甲对于乙将采用哪一个策略,
当然是不知道的,否则就不叫博弈了。甲可以设想,乙采用左策略和右策略
的机会是一半对一半。这样,如果甲采用上策略,他得9和得0的机会也是一
| 98 | 博弈论平话 |
半对一半,他的(expected payoff)将是(9+0)÷2=4.5;如果甲采
期望支付
用下策略,他得8的机会和得7的机会将是一半对一半,他的期望支付将是
(8+7)÷2=7.5。所以,从期望支付来看,甲采用下策略是比较稳妥的,至少
可以得7,运气好可以得8;如果采用上策略,运气好固然可以得9,但是运
气不好可就将得0。为了稳妥起见,还是不要冒得0的风险好。
在前景不确定的情况下,期望的结果如何,即各种可能结果的加权平均
值如何,是非常重要的判断标准。设身处地想想,如果你是局中人甲,你将
采用哪个策略呢?我想你一定会选择下策略。这个博弈是对称的,乙的处境
和甲完全一样。所以,乙多半也要选用稳妥的右策略,至少可以得7,运气好
可以得8,他不会冒可能得0的风险去搏那个9。甲多半选下策略,乙多半选
右策略,所以博弈的实际结局,多半是右下角那个格子甲采用下策略乙采用
右策略双方各得7。
在这种情况下,博弈论学者说右下角格子代表的“甲下乙右”得(7,7)
的纳什均衡,具有(risk advantage)。注意,风险优势不是表示风险
风险优势
大,反而是说风险比较小,优势在于风险小。
给这个博弈起一个名字并不难。我先给一年级大学生讲这个博弈,小林
就想到考试作弊。后来给硕士研究生讲这个博弈,小徐也用考试作弊来编故
乙
作弊不作弊
作弊
甲
不作弊
9
9
0
8
7
0
7
8
串通作弊博弈
| 第三章 简单博弈模型的应用 | 99 |
事。这也难怪,因为他们都是学生,头脑里常常是考试。
小徐编的故事是:在一次涉及名额挑选的10分制考试中,考官规定,一
旦发现谁作弊就将给予0分,揭发他人作弊,得奖励1分。甲乙两人功课都
比较好。这样,如果都不作弊,估计都可以得7分;如果串通作弊没被发现,
因为“取长补短”,每人可得9分;如果一人作弊另一人告发,作弊者得0分,
告发者得7 + 1 = 8分。看来似模似样,不无道理。
必须说明,前面说甲可以设想乙采用左策略和右策略的机会是一半对一半。
这自然只是非常初步非常粗略的试探性设想,因为乙采用左策略还是右策略的
机会未必是一半对一半。关于这个问题的讨论,牵涉参与人的各种(纯)策略
按照不同的概率组合成为参与人的“混合策略”这么一个重要的概念。
下一章,我们将介绍混合策略和混合策略纳什均衡的概念,以及计算混
合策略纳什均衡的反应函数法。读到那里,读者想必对我们现在这里粗浅的
概率假设会产生新的体会。
| 100 | 博弈论平话 |
营造克己奉公的制度环境
高薪养廉,是公务员制度方面的一种理论。上一节我们讲的考试串通作
弊博弈,可以帮助说明为什么高薪可以养廉。假设甲乙是主任和书记这样工
作关系密切的国家公务员,7代表现在政府给他们的高薪。如果两人受贿,因
为串谋而一时不被人发现,他们可以到达9的位置,而一旦东窗事发,他们
就要被撤职查办。所以,他们没有道理冒丢掉金饭碗7的风险去受贿图那个9,
也就是说他们没有受贿的经济激励。
乙
受贿不受贿
受贿
甲
不受贿
9
9
0
8
7
0
7
8
高薪格局的串谋博弈
作为对照,如果我们把博弈数据改变一下,变成薪水只有2。这时候,任
何一方如果仍然接受对方受贿和不受贿的概率是一半对一半这种非常初步非
常粗略的试探性假设,他自己受贿的期望支付将是(9+0)÷2=4.5,不受贿
的期望支付将是(3+2)÷2=2.5,受贿的经济激励就比较大。
如果拿行政系统同样十分强势的新加坡和我们比较,10年前公务员薪俸
之比要比7∶2大得多,所以上述两个模型的对比并不夸张。实际社会情况
大家也清楚,新加坡公务员受贿的情况,比我们这里要少得多。
对于高薪养廉理论,争议很大。主要的批评是它忽略了干部的觉悟水平
| 第三章 简单博弈模型的应用 | 101 |
乙
受贿不受贿
9
9
0
3
2
0
2
3
受贿
甲
不受贿
低薪格局的串谋博弈
和共产党思想教育的成效。在我们看来,一方面高薪是养廉的重要条件,另
一方面奖惩分明更是干部廉洁的制度保证。在由于过去经济建设没有搞好所
以没有条件高薪养廉的情况下,制度保证就尤其重要。在讨论伪劣商品为什
么泛滥的时候,大家知道惩罚太轻是问题的关键。假定10次可以逮到一次,
你罚他三四倍是无济于事的,罚他几十倍几百倍可能就比较有效果。这样,
才能够遏制生产销售伪劣商品的动机。现在许多人是一犯再犯,七进宫八进
宫,就是因为油水很大而惩罚很轻。
公务员也是这样,最理想的情况,当然是高薪养廉和严惩腐败相结合。
在没有条件高薪养廉的时候,惩治腐败就特别重要。例如,比较严重的腐败
行为一旦发现并且证实,就把当事人开除出干部队伍永再不录用,而且要追
究刑事责任。这样,受贿被抓住的支付从0下降到–20,整个博弈格局就会
发生根本的变化。如果仍然按照上述一半对一半的非常初步非常粗略的试
探性假设,这时候腐败的期望支付是(9–20)÷2=–5.5,廉洁的期望支付是
(3+2)÷2=2.5,恐怕敢于违法乱纪的干部就会大大减少。
| 102 | 博弈论平话 |
乙
受贿不受贿
9
9
–20
3
2
–20
2
3
受贿
甲
不受贿
制度促廉
现代经济学已经扩张到行为研究。利益毕竟常常是行为的背景。思想教
育固然重要,但是就社会整体而言,制度设计才是根本的保证。如果制度能
够抑恶扬善,思想教育的效果也会比较好;如果制度不能抑恶扬善,反而诱
发干部贪小便宜,思想教育也必然会事倍功半。
有人可能会说,制度当然是抑恶扬善的,怎么会诱发贪小便宜呢?其实
不然。干部队伍这个大问题暂且不说,前两年舆论鼓吹“自由享用,良心付款”
的“信任消费”,鼓吹便民应急伞要免费免押才能体现精神文明,鼓吹没有监
督的君子行为等,其实往往是激励贪小便宜的制度设计。
| 第三章 简单博弈模型的应用 | 103 |
“最惠客待遇”对谁有利
在我国加入WTO(世界贸易组织)以前,我们常常听到“最惠国待遇”
的说法,因为美国国会和政府从美国国内的政治需要出发,老是威胁不给中
国最惠国待遇。有几年时间,这样的闹剧一再重演,热闹得很。如果顾名思
义不作思考,很容易被“最惠国待遇”这个来自美国的说法误导,以为美国
给不给中国最惠国待遇,是美国给不给中国好处的问题。其实,当今世界绝
大部分国际贸易,都在相互给予最惠国待遇的条件下进行。美国和我们之间
互相给予最惠国待遇,对美国自己也有很大好处。给最惠国待遇,并不是施
舍。相反,不给我们最惠国待遇,则是明显的歧视。动不动就以“不给最惠
国待遇”来威胁,只是暴露了美国霸权主义的嘴脸。
有趣的是,美国国内的商业竞争,也有(most-favored-customer
最惠客条款
clau,即“最惠客待遇”)的手法,花样繁多。经济学家用博弈论分析其中
一些最惠客待遇的做法,说明它们其实并不给顾客带来优惠。
这种最惠客待遇的逻辑,就是不让最早光顾的顾客吃亏,压抑顾客持币观望
的倾向,促使想买的人及早购买,以保证货如轮转。不降价是不是对顾客有
利,就看你处于什么社会阶层了。要紧的是这种营销手段名字很好听。
假定有两个商场在市场上竞争一种商品的销售,并且两家合起来完全垄
断了这种商品的市场供应。那么我们很熟悉,如果两家联手卖高价,都可得
到比较高的利润,比如说10。如果两家都卖低价,双方的利润都比较低,比
方说5。如果一家高价一家低价,高价的要亏损得–1,低价的利润上升到14。
运用劣势策略消去法,我们马上知道不实行最惠客待遇时,双方都实行低价
销售,是这个非合作博弈唯一的纳什均衡。
乙
不降降价
不降
甲
降价
–1
14
5
5
1014
10–1
不实行最惠客待遇
如果实行最惠客待遇,要是一家降价一家不降价,那么不降价的一家仍
然亏损得 –1,但是降价的那家因为要补偿原来的顾客,赢利不是上升到14,
而是下降到9。这时候,分析营销博弈不能用劣势策略消去法,但是可以用相
对优势策略下划线法,得到两个纳什均衡,一个是双方都卖高价,各得10,
另一个是双方都卖低价,各得5。单就两个纳什均衡来说,似乎仍然有可能
双方都卖低价优惠了顾客,但是如果站在两家商场的立场上,双方都卖高价
这个纳什均衡具有明显的帕累托优势,所以理性的商场当然要采取高价策略。
| 第三章 简单博弈模型的应用 | 105 |
特别需要注意的是,动态地说,采取高价策略以后,商场不再有降价的激励。
这样,商场可以获得比较高的利润,顾客实际上就享受不了什么“优惠”。
乙
不降降价
10
10
–1
9
5
–1
5
9
不降
甲
降价
实行最惠客待遇
在我们的市场上,顾客也常常听到相当于最惠客待遇的宣传。“铁价不二”
的说法就是较好的例子,不过我们的铁价不二往往有时间性。另一种是广东
一带“熟客仔”的说法,说你是熟客仔、老顾客,表示特别关照你,实际上,
却是只有个别顾客没有“享受”到熟客仔和老顾客的待遇,多数人都是熟客
风险优势的判定
回到前面讲过的串通作弊博弈,具体的数据略有改动,支付矩阵如下所示。
我们说右下角得(4,4)的纳什均衡具有风险优势,即风险比较小。当时,我
们通过设想对方采取两种策略的概率是一半对一半,比较在这种设想的条件下
双方期望支付的大小,确定右下角的均衡比左上角的均衡具有风险优势。具体
的做法是试探性、参考性地假设对方采用两个策略的机会都是一半对一半,这
样来计算自己的期望支付。对方不默契要从(4,4)这个均衡偏离出去的话,
我将得到5,而对方要从(6,6)这个均衡偏离出去的话,我的支付将变为0。
假设对方采用两个策略的机会都是一半对一半,就是假设对方固守均衡的概率
和从均衡偏离出去的概率都是一半对一半。这样,站在右下角,期望支付是
(+5)÷2=4.5,站在左上角,期望支付是(+0)÷2=3,因为(+5)÷2=4.5
464
大于(+0)÷2=3,所以得到(4,4)的这个纳什均衡比得到(6,6)的那个
6
均衡具有风险优势。从期望支付来看,甲采用下策略是比较稳妥的:至少可以
得4,运气好可以得5;如果采用上策略,运气好固然可以得6,但是运气不好
可就将得0。为了稳妥起见,还是不要冒得0的风险好。同样,乙也倾向于采用
比较稳妥的右策略,所以博弈的实际结局,多半是右下角的(4,4)。
乙
左右
6
6
0
5
4
0
4
5
上
甲
下
串通作弊博弈
| 第三章 简单博弈模型的应用 | 107 |
这样来初步说明风险优势的意思是很好的,但是也有不够严密的地方,
就是假设双方采用两个策略的机会都是一半对一半,缺乏足够的根据。为什
么认为甲采用“上”策略可能得到6的概率和采用“下”策略可能得到4的概
率一样呢?如果有人假设甲采用“上”策略可能得到6的概率是60%、采用
“下”策略可能得到4的概率是40%,你能说他没有道理吗?不能。实际上,
可以得6的概率为60%和可以得4的概率为40%,恐怕比原来假设一半对一半
更加自然。
可见,假设概率情况来计算期望支付,然后通过比较这时候期望支付的
大小来确定哪个均衡具有风险优势,容易引起争议。现在经济学家采用的方
法,不是这样的假设概率的期望支付比较法,而是偏离损失乘积比较法,简
称。
偏离损失比较法
以上述串通作弊博弈为例,它有A =(上,左)和B =(下,右)两个纳
什均衡。如果甲从A偏离出去,赢利从6变成5他要损失1,我们写“甲的离
A损失为1”;如果甲从B偏离出去,赢利从4变成0他要损失4,我们写“甲
的离B损失为4”。同样,如果乙从A偏离出去,赢利从6变成5他要损失1,
我们写“乙的离A损失为1”;如果乙从B偏离出去,赢利从4变成0他要损失
4,我们写“乙的离B损失为4”。现在,注意(1×1=1)<(4×4=16),也就
是说:
甲的离A损失×乙的离A损失 < 甲的离B损失×乙的离B损失
这时候我们论定,均衡B比均衡A具有风险优势。
A、B两者都是纳什均衡。现在,两人单独偏离B的损失的乘积(16),
| 108 | 博弈论平话 |
大于两人单独偏离A的损失的乘积(1)。因为偏离B的损失更大,所以他们
更不愿意偏离B,所以我们认为均衡B比均衡A具有风险优势。
在以前讲过的所有博弈之中,读者可以找那些有不止一个纳什均衡的博
弈来做练习,看看究竟哪一个均衡具有风险优势。
这里介绍的风险的偏离损失乘积比较法,是博弈论学者提出来不久的一
种方法。必须说明,从最新的方法探讨能否演进到形成共识被普遍接受,还
需要许多研究,还要等待相当长的时间。
| 第三章 简单博弈模型的应用 | 109 |
说说风险优势的从属地位
请看下面的博弈,如果你是局中人甲,你会选择哪个策略?
乙
左右
上
甲
下
(A)
6
–1 000
(B)
4
5
6
–1 000
5
4
博弈策略
很明显,这个博弈有两个纳什均衡:一个是甲上乙左得(6,6),另一个
是甲下乙右得(4,4)。左上角的均衡具有帕累托优势。
现在用上一节讲的偏离损失比较法来看哪一个均衡具有风险优势。我们
把左上方均衡叫做均衡A,右下方均衡叫做均衡B,那么甲的离A损失为1,
乙的离A损失也是1;甲的离B损失为1 004,乙的离B损失也是1 004。这样,
因为
(甲的离A损失×乙的离A损失=1)<(甲的离B损失×乙的离B
损失=1 008 016)
所以我们可以判断均衡B具有风险优势。
按照帕累托标准即赢利标准,均衡A占优势,但是按照风险标准,均衡B
占优势。这就犯难了,究竟你倾向哪个均衡?我猜想作为局中人甲,你多半
| 110 | 博弈论平话 |
选择下策略。为什么?因为选上策略固然可能得到比4大的6,但是如果对方
不默契或者不理性选择了右策略,你可要承受1 000的损失。既然选择上策略
的风险那么大,你自然会选下策略。选择下策略,“旱涝保收”至少得4。这
是完全没有风险的赢利。
我这样判断,是基于两个前提:第一,人是会犯错误的;第二,你不喜
欢冒大的风险。在这个例子中,我说人是会犯错误的,特别是说你的对方可
能犯错误。如果他是完全理性的,包括精于计算,如果他不会犯错误,他当
然会选择左策略,这样你也不必为损失1 000的风险担心。只是因为他可能糊
涂,可能失于计算,可能犯错误,所以你才要设法回避可能带来的风险。
至于我说你不喜欢冒大的风险,可能你不同意。实际上,如果我对你不
是很了解就说你不喜欢冒风险,的确武断了一些。不过我也有根据,就是心
理学和经济学都说明,绝大多数人不喜欢冒风险,绝大多数人是
风险厌恶
(risk aversion)的。既然这样,虽然我对你还不了解,但是我说你不喜欢风险,
说错的概率也比较小,我冒得起这个比较小的风险。
诺贝尔科学奖是瑞典皇家科学院送给国际科学界的礼物,瑞典位于北欧
的斯堪的纳维亚半岛。每年的诺贝尔经济学奖颁发以后,在次年的《斯堪的
纳维亚经济学杂志》上,照例有权威学者介绍获奖者贡献的文章。该杂志
1995年第一期,就刊登了荷兰范丹墨教授和瑞典维布尔教授合写的文章,介
绍纳什、哈萨尼和泽尔滕三位教授的贡献。这篇文章写得很好。
其中,关于帕累托优势和风险优势的关系,文章是这样说的:“在帕累托
标准和风险标准之间,理论给帕累托优势以优先权,而风险优势只有在局中
人面临不知道选哪个均衡好的不确定性的时候才变得重要。当一个均衡具有
帕累托优势的时候,局中人一定选择这个均衡,不确定性就不存在了。”
| 第三章 简单博弈模型的应用 | 111 |
这就是说,只要均衡A比均衡B具有一点点帕累托优势,那么哪怕均衡B
比均衡A具有很大的风险优势,也认为将发生的是A而不是B。这么武断,似
乎与常识背离,是因为经济学研究的是理性行为。彻底理性的“人”,不会糊
涂,不知风险,不是生活在我们周围的人。
经济学家在理性假设之下得出来的结论,未必适合读者面对的理性不那
么彻底的情形。“是经济学家错了,还是我们自己错了”,这本来是非常值得
思考和回味的问题。
我们思考的结果之一,是经济学家和读者都不应该受到责备。
| 112 | 博弈论平话 |
风险厌恶的统计和理论
如果你是一个穷学生或者下岗职工,好不容易找到一份在周末卖力气的
工作。老板别出心裁地安排了两种工资支付方式:第一种是每天下班时领取
人民币100元;第二种是每天下班后扔一个面额1元的硬币,如果面额向上你
可以领取200元,如果图案向上面额向下你这天就没有工资。两种支付方式
由你选择,你愿意要哪一种?
大家知道,扔硬币的结果,面额向上和面额向下的概率是一半对一半。(0
×1/2)+(200×1/2)=100。所以,从你实际领取到多少工资的数额来说,
两种方式得到的工资的期望值应该是一样的。如果你对此有疑虑,可以换一
个角度,站在老板的立场上想一想:老板要是请了500个像你一样的散工,
都允许他们选择第二种方式支付工资,那么老板是不能期望占到什么便宜的。
老板不能占到便宜,也就是你们并不吃亏。
所以说,着眼于“大数”,即着眼于多次实践,从两种方式双方都一样不
吃亏来说,依任何一种方式领取工资和支付工资,无论对于工人还是对于老
板,所得和所付都是一样。
但是面对得失理应一样的两种制度,我猜你多半选择第一种工资支付方
式。因为你和绝大多数人一样,是经济学所说的风险厌恶者,是不喜欢无端
去冒什么风险的人。
如果我猜得对,这将是对“绝大多数人是风险厌恶者”的论断的又一实
验和统计支持。
理论上说,风险厌恶是经济学所说的(law of dimini-
边际效用递减规律
shing marginal utility)的自然要求。同样一件东西,当你很渴望得到它的时候,
| 第三章 简单博弈模型的应用 | 113 |
消费它给你带来的满意程度很大;当你不那么需要它的时候,消费它给你带
来的满意程度比较小。经济学把满意程度称为“效用水平”,或者简称
“效用”
(utility)。当你很渴的时候,第一杯水给你带来的效用最大,第二杯就差一点
儿,第三杯、第四杯将继续递减,第五杯、第六杯给你带来的效用可能就是
负的了,因为你已经撑得难受,越来越难受。这就是所谓的“边际效用递减
率”,因为经济学把最后消费的那杯水给你带来的效用叫做“边际效用”。
不仅一般消费品是这样,金钱对于人们也是这样。100元钱,在你很穷
的时候带给你的边际效用很高,就像很渴的人得到的第一杯水,那是救命钱。
同样的100元钱,当你已经很有钱的时候,带给你的边际效用并不是很高,
有点像已经差不多喝饱水的时候再得到一杯水一样。钱带来的边际效用和水
有一个不同的地方,那就是钱带来的边际效用虽然下降,却并不会降低到0,
更不会降低到负,但是短时间要喝到肚里的水带来的边际效用,却一直下降,
下降到0,甚至下降到负值,也就是不再喝更好。
设想第一个100元带给你的边际效用是100,第二个100元带来的边际效
用是94,第三个100元带来的边际效用是90,……第30个100元带来41,第
31个100元带来40,第32个100元带来39,……。这时候你看,作为一个穷
人,今天保证你得到100元工资,给你带来的效用将是100。如果换了第二种
支付方式,得不到工资和得到加倍工资即200元的机会是一半对一半,那么
虽然你今天的工资的期望值仍然是(0×1/2)+(200×1/2)=100,但是因
为第一个100元带给你的边际效用是100、第二个100元带来的边际效用降为
94,得200元所获得的总效用是100+94=194,你的效用的期望值将是(0×
1/2)+(194×1/2)=97,比第一种方式保证的100小。这就是你选择第一
种方式的原因。
| 114 | 博弈论平话 |
边际效用递减率还可以说明有钱人比较经得起风险。接着上面的数值模
拟例子说吧,如果你是“打工皇帝”,每天已经有3 000元的收入,现在又可
以增加100元,这将是第31个100元。现在,究竟保证每天增加100元带来40
的边际效用好,还是扔硬币看运气,运气好得200元带来40+39=79的边际效
用,运气不好就拉倒,你就比较无所谓了。因为第二种方式带来的边际效用
的期望值,是(0×1/2)+(79×1/2)=39.5,这和第一种方式带来的40,相
差很少。
| 第三章 简单博弈模型的应用 | 115 |
第四章
混合策略与均衡筛选
我们迄今讨论过的博弈,其纳什均衡都是这个参与人的某个策略与那个参与
人的某个策略组成的适当对局,但是这一章将介绍的“扑克牌对色游戏”博弈,
却没有这种由参与人的这个那个现成策略组成的纳什均衡。那么,是不是说扑克
牌对色游戏博弈就没有纳什均衡呢?不是。虽然扑克牌对色游戏博弈没有迄今我
扑克牌对色游戏
现在请大家玩所谓的(game of color-matching):两人博
扑克牌对色游戏
弈,每人从自己的扑克牌中抽一张出来,一起翻开。如果颜色一样,甲输给
乙一根火柴;如果颜色不一样,甲赢得乙的一根火柴。为了确定起见,我们
不允许出扑克牌中的“大鬼”和“小鬼”。
大家知道,不算“大鬼”和“小鬼”的话,正规扑克牌的基色,只有红
和黑两种颜色。所以,每个参与人的(纯)策略都只有两个,一是出红,一
是出黑。这样,我们可以把博弈矩阵写下来:甲出红乙也出红,颜色一样,
甲得–1乙得1;甲出红乙出黑,颜色不一样,甲得1乙得–1;甲出黑乙出红,
颜色不一样,甲得1乙得–1;甲出黑乙也出黑,颜色一样,甲得–1乙得1。
上面这个“纯”字的意思,等一下再仔细说明。
乙
红黑
红
甲
黑
–11
1–1
1–1
–11
扑克牌对色游戏
每人两个(纯)策略,二二得四,一共有四种(纯)策略对局情形。按照
本书迄今为止介绍过的均衡概念,我们容易知道这个博弈的四个格子代表的
都不是纳什均衡。实际上,博弈矩阵的四个格子中,没有一个符合“谁单独
| 第四章 混合策略与均衡筛选 | 119 |
改变策略都没有好处”的均衡标准。例如左上方甲出红牌乙也出红牌双方支
付为(–1,1)的格子,甲单独改变策略变成出黑牌,他的得益就从–1变成
1,甲改变有好处。可见,左上方格子的位置代表的不是纳什均衡。再看右上
方格子,甲红乙黑双方的支付分别为(1,–1),乙要是改出红牌,得益就从–
1上升到1,乙改变有好处。可见,右上方格子的位置代表的也不是纳什均衡。
同样,左下方格子和右下方格子代表的也都不是纳什均衡。
包括刚刚介绍的扑克牌对色游戏在内,迄今我们接触过的博弈,都是
有
。所谓有限,就是博弈参与人数(simultaneous-move finite games)
限同时博弈
目有限,并且可供每个参与人选择的(纯)策略的数目有限。所谓同时,就
是博弈的参与人同时选择他们的策略,而不是有先有后。
博弈论最重要的纳什定理说,每个有限同时博弈都有纳什均衡。可是仔
细看看上面的扑克牌对色游戏那么简单的博弈,它的全部四个格子所代表的,
却都不是我们讲过的那种纳什均衡。是不是这个博弈就没有纳什均衡了呢?
不是。这是因为还有一种纳什均衡我们没有讲过,那就是
混合策略纳什均
,而以前讲的都是(Nash equqilibrium of mixed strategies)
纯策略纳什均衡衡
(Nash equilibrium of pure strategies)。
读到下一节我们将知道,混合策略的概念和计算方法,其实并不很困难,
除了现讲现明的简单“概率”概念以外,用到一点儿初中代数而已。这个说法,
等我们讲完混合策略的纳什均衡以后,相信你就会同意。不过虽然大多数读
者都具有中学甚至高中的文化程度,可是当年学过并且考试通过以后,他们
多半不再使用初中代数,也就变得不会使用初中代数了。
顺便说说,这个扑克牌对色游戏,属于下一章将要专门讨论的所谓
“零
。对于这种博弈,每一个策略对局之下博弈双方的总支付即双方
和博弈”
| 120 | 博弈论平话 |
得失之和总是0,所以叫零和博弈。在上面扑克牌对色游戏的例子里,每
一局博弈的结果不外乎你输一根火柴我赢一根火柴或者你赢一根火柴我输
一根火柴,每一对局之下你的支付与我的支付的总和总是0。这就是零和
博弈的意思。
| 第四章 混合策略与均衡筛选 | 121 |
混合策略和纳什定理
这一节着重解说混合策略。
首先看局中人甲,他既有出红牌和出黑牌两种(pure strategy),还
纯策略
有以的概率出红牌和以1–的概率出黑牌的(mixed strategy),这里
pp
混合策略
pp
是0和1之间的一个小数,但是也通常表示为一个百分数。比如说=0.4,也
就是=40%,那么1–=0.6,即1–=60%。这时候说甲的混合策略是(,1–),
ppppp
就是说甲以=0.4或=40%的概率出红牌,于是他当然以1–=0.6或者1–=60%
pppp
的概率出黑牌。可见,所谓混合策略,不是纯粹这样做或者纯粹那样做,而
是百分之多少选择这样做,百分之多少选择那样做,这两个百分数加起来,
应该是1,即100%。
这样一来,局中人可以选择的策略就多得多了,至少你知道是无穷多个。
ppppppp
=0.4可以,=0.2、=0.3、=0.79、=0.1998426等,甚至=0或=1都可以,
可不是无穷多种选择吗?如果=0.79=79%,那么1–=0.21=21%,混合策略
pp
(,1–)就是出红牌的机会是79%,出黑牌的机会是21%。
pp
如果=0,那么1–=1=100%,这时候,混合策略(,1–)=(0,1)就
pppp
是出红牌的机会是0,出黑牌的机会是100%,也就是从概率来说他只出黑牌,
变成原来讲的纯策略了。可见,混合策略包括原来的纯策略,或者说混合策
略的概念是原来纯策略的概念的推广。
同样,说乙的混合策略是(,1–),就是说乙用的概率出红牌,用1–
qqqq
的概率出黑牌。概率是一个小数,是一个百分数,表示出红牌的机会和出黑
牌的机会。我们说,扔一枚硬币,面值向上的概率是50%,就是说面值向上
的机会是50%。这样的概率,不是很好理解吗?我前面说介绍混合策略的概
| 122 | 博弈论平话 |
念要用到“现学现明”的概率概念,不是糊弄你吧?
如果一个局中人只有两个纯策略可供选择,那么他的混合策略可以用(,
p
1–)或者(,1–)表示,这是因为他不是选择这个纯策略,就是选择那
pqq
个纯策略,选择两种纯策略的机会加起来是100%,即选择两种纯策略的概率
加起来是1。这样,如果选这种纯策略的概率是,选那种纯策略的概率就是
p
1–。可见在局中人只有两个纯策略可供选择的情况下,用一个字母的组合
pp
(,1–)就可以把他的所有可能的混合策略选择都表达出来。
pp
乙
红
q–q
1–1
红
p
甲
黑 1
–p
–11
1–1
–11
黑
1
扑克牌对色游戏混合策略的概率表示
如果一个局中人有3个纯策略可供选择,一个字母就不够用了。但是因
为选择三种策略的机会加起来是100%,即选择三种纯策略的概率加起来是1,
我们用两个字母和的组合(,,1––)就可以把他所有可能的混合策略
qrqrqr
选择都表达出来。
推而广之,如果一个局中人有5种纯策略可供选择,需要4个字母才能
表达他所有可能的混合策略选择;如果一个局中人有100种纯策略可供选择,
则需要99个字母等。
现在我们具体叙述纳什定理。
| 第四章 混合策略与均衡筛选 | 123 |
纳什定理:
如果允许混合策略,那么每个有限同时博弈都有纳什均衡。
纳什定理的证明相当困难,远远超出本书的范围。我们在向读者介绍纳
什定理的结论以后,将以扑克牌对色游戏为例,着重讲述计算纳什均衡的反
应函数法。
寻找纳什均衡的反应函数法
我们知道,扑克牌对色游戏的矩阵表示如下,其中把参与人A的混合策
略表示为以的概率出红牌和以1–的概率出黑牌,把参与人B的混合策略表
pp
示为以的概率出红牌和以1–的概率出黑牌。
A
红
q–q
红
p
B
黑 1
–p
1–1
–11
–11
1–1
黑
1
扑克牌对色游戏
虽然(,1–)和(,1–)是多少现在还不知道,但是不知道没关系,
ppqq
可以就用字母和来表示。这是我们在初中代数里面已经熟悉的做法。首先
pq
我们计算在参与人A和B的混合策略分别是(,1–)和(,1–)的时候,
ppqq
参与人A和B的期望支付或期望收益是多少。
A出红B也出红,A将得 – 1,但是A出红的概率是,B出红的概率是,
pq
所以A出红B也出红的概率是乘等于;A出红B出黑,A将得1,但是A
pqpq
出红的概率是,B出黑的概率是1–,所以A出红B出黑的概率是乘1–等
pqpq
于(1–);A出黑B出红,A将得1,但是A出黑的概率是1–,B出红的概
pqp
率是,所以A出黑B出红的概率是1–乘等于(1–);A出黑B也出黑,
qpqpq
A将得–1,但是A出黑的概率是1–,B出黑的概率是1–,所以A出黑B也
pq
| 第四章 混合策略与均衡筛选 | 125 |
出黑的概率是1–乘1–等于(1–)(1–)。
pqpq
这样,记参与人A的期望支付为U,我们就知道:
A
U
A
(,) =(–1)+1(1–)+1(1–)+(–1)(1–)(1–)
pqpqpqpqpq
=–+–+––1++–
pqppqqpqpqpq
=–4+2+2–1
pqpq
=2(1–2)+(2–1)
pqq
我们之所以把参与人A的期望支付整理成不含的项和含的项这个样子,
pp
是因为A只能选择而不能选择。所以,A能够通过选择来影响第一项,而
pqp
不能直接影响第二项。由期望支付我们知道,当(1–2)> 0即< 1/2的时
候,A把选得越大越好,但是概率,最大不能超过1,那么这时候参与人A
pp
就应该选择等于1;当(1–2)< 0即> 1/2的时候,A把选得越小越好,同
pqq p
样因为是概率,最小不能小于0,那么这时候参与人A就应该选择等于0;当
pp
(1–2)= 0即=1/2的时候,A把选成多少,他的期望支付都是0+(2–1)= 0,
qq pq
对结果没有影响,所以这时候参与人A可以在区间[0,1]之内随便选一个。
p
这样,因为参与人B的混合策略已经设定为(,1–),所以参与人A对
于参与人B的策略选择的(最佳)反应函数是:
සࡕ
q
!
1/20
°
°
pq
®
>@
0,11/2
සࡕ
°
°
සࡕ
q
1/21
¯
其中“=[0,1]如果=1/2”是说,如果=1/2,可以在0和1之间任
p q q p
| 126 | 博弈论平话 |
意选择。
同样,我们可以把B的期望支付整理成为:
U
B
(, ) =1+(–1)(1–)+(–1)(1–)+1(1–)(1–)
pqpqpqpqpq
=–+–++1––+
pqppqqpqpqpq
=4–2–2+1
pqpq
=2(2–1)–(2–1)
qpp
得到参与人B对于参与人A的策略选择的(最佳)反应函数:
11/2
සࡕ
p
!
°
°
qp
®
>@
0,11/2
සࡕ
°
°
¯
01/2
සࡕ
p
现在,我们在以为纵轴、以为横轴的直角坐标里,把A和B的最佳反
pq
应函数都画出来,两个反应函数重合的地方,就是这个博弈的纳什均衡。现
在两个反应函数只有一个交点,说明这个博弈只有一个纳什均衡,这个纳什
均衡是混合策略的纳什均衡:
p
1
1/2
01/21
q
反应函数曲线相交方法
| 第四章 混合策略与均衡筛选 | 127 |
至此,我们“算”出了扑克牌对色游戏博弈的纳什均衡,它是* = 1/2和
p
。在经济学里,习惯把解答结果* = 1/2,或者写成(*,*)=(1/2,1/2)
qpq
用星号标记出来。这就是说,纳什均衡是:参与人A出红牌还是出黑牌的概
率是一半对一半,参与人B出红牌还是出黑牌的概率也是一半对一半。
这种确定纳什均衡的方法,叫做(method of reaction functions)。
反应函数法
做出结果以后,要想一想它大体上是否符合实际。事实上,从小学算术
开始,老师总是要求学生在解答应用题的时候“验算”计算结果,不要算出
自行车比火车还重,也交卷了事。现在算出纳什均衡是参与人A出红牌和出
黑牌的概率是一半对一半,参与人B出红牌和出黑牌的概率也是一半对一半,
看来是符合我们的直觉的。
首先我们说明,只要A出红牌和出黑牌的概率不一样,或者B出红牌和
出黑牌的概率不一样,就一定不是纳什均衡。你想,如果A出红牌的概率比
出黑牌的概率大,B可以把自己的策略选择改为只出红牌,这样改变会使B处
于上风,得到额外的好处;同样,如果A出红牌的概率比出黑牌的概率小,B
可以把自己的策略选择改为只出黑牌,这样改变也会使B处于上风,得到实
际的好处。可见,只要A出红牌和出黑牌的概率不一样,B都可以独自改变
策略得到额外的好处,所以只要A出红牌和出黑牌的概率不一样,一定不是
纳什均衡。同样道理,只要B出红牌和出黑牌的概率不一样,也不是纳什均衡。
这样,唯一还可能做纳什均衡的“候选人”的,就只剩下(*,*)=(1/2,
pq
1/2)了。在这个点上,A的期望支付是:
U
A
(*,*)=2*(1–2*)+(2*–1)=0
pqpqq
| 128 | 博弈论平话 |
如果A想单独改变策略,他只能改变,但是变来变去,他的期望支付是:
p
U
A
(,*)=2(1–2*)+(2*–1)=2×0+0=0+0=0
pqpqqp
A这样变不出好处来;同样,在均衡点上,B的期望支付是:
U
B
(*,*)=2*(2*–1)–(2*–1)=0
pqqpp
如果B想单独改变策略,他只能改变,但是变来变去,他的期望支付是:
q
U
B
(*,)=2(2*–1)–(2*–1)=2×0–0=0–0=0
pqqppq
B这样也变不出什么好处来。这样,在(*,1/2)在这个位置,*)=(1/2,
pq
双方都没有单独改变策略的激励,可见,(*,*)=(1/2,1/2)的确是纳什
pq
均衡。
| 第四章 混合策略与均衡筛选 | 129 |
再说混合策略纳什均衡
值得强调的是,纳什均衡的关键之处,是博弈各方在当前的策略对局之
下没有单独改变策略选择的激励。在理性行为假设之下,激励的来源是实际
利益。所以,做一件事要有激励,就必须能够因为做这件事而得到好处,要
有激励改变策略,就必须能够因为改变策略而得到好处。弄清楚这个关系,
我们就知道,按照“单独改变策略不会得到额外的好处”来理解纳什均衡,
可能更好。因为在老百姓的语言中,“没有好处”常常被理解为有坏处,但是
在定义纳什均衡的时候,所谓“单独改变策略没有好处”也包括单独改变策
略选择的时候得益情况没有改变的情形。如果得益不会改变,当事人何苦改
变策略选择瞎折腾呢?所以,他没有改变策略的激励。
不仅如此,正如我们在验算扑克牌对色游戏的纳什均衡(*,*)=(1/2,
pq
1/2)的时候知道的,如果谁单独改变策略,变得出红牌和出黑牌的概率不再
是一半对一半,那么对方就可以改变策略来讨便宜。所以,单独改变虽然不
一定真的马上使自己的处境变糟,但是至少造成了让对方有机可乘的局面。
至于具体的扑克牌对色游戏,非常值得注意的是,固然纳什均衡策略要
求你“出红牌和出黑牌的概率一半对一半”,但是你不能让对方摸到你怎样实
得正面,出红;如果得背面,出黑。这样子把具体每次出什么牌的决策交给
老天爷,对方就摸不着你出牌的规律了。但是,虽然具体哪一次出什么牌,
你在扔硬币之前并不知道,但是一直这么玩下去,老天爷又会非常忠实地为
你维护“出红牌和出黑牌的概率一半对一半”的根本性要求。“随机”又“一
半对一半”地出牌,“随机”是就每次出牌说的,“一半对一半”则是博弈多
次重复条件下策略选择的统计要求。
现在我们计算情侣博弈的纳什均衡。
读者可能会问,情侣博弈的纳什均衡不是早就知道了吗:要么一起看球,
要么一起看芭蕾。为什么现在又要计算呢?
实际上,以前我们用劣势策略消去法或者相对优势策略下划线法来求博
弈的纳什均衡,只能求出纯策略的纳什均衡。混合策略的纳什均衡,用劣势
策略消去法和相对优势策略下划线法是求不出来的,要用现在讲的反应函数
法,或者说得更详细一些,要用最佳反应函数曲线交叉的方法来做。
我们知道情侣博弈有好几个版本,现在我们采用选修第二外语的那个版
本:陈明和钟信面临的抉择,可以表示为下面的博弈:
钟信
德语法语
q–q
德语
p
陈明
法语1
–p
2
3
0
0
2
1
3
略组合和右下方一起选法语的策略组合。为了计算混合策略纳什均衡,我们
假设陈明选德语的概率是,选法语的概率是1–;钟信选德语的概率是,
ppq
选法语的概率是1–。和上面一样,我们可以把陈明的期望支付整理出来:
q
U
C
(,) =3+1(1–)+0(1–)+2(1–)(1–)
pqpqpqpqpq
=3+–+2–2–2+2
pqppqpqpq
=4––2+2
pqpq
=(4–1)–2(–1)
pqq
据此,他的最佳反应函数是:
11/4
සࡕ
q
!
°
°
pq
®
>@
0,11/4
සࡕ
°
°
¯
01
සࡕ
q
/4
同样,把钟信的期望支付整理出来:
U
Z
(,) =2+1(1–)+0(1–)+3(1–)(1–)
pqpqpqpqpq
=2+–+3–3–3+3
pqppqpqpq
=4–2–3+3
pqpq
=(4–3)+3–2
qpp
据此,他的最佳反应函数是:
| 132 | 博弈论平话 |
13/4
සࡕ
p
!
°
°
qp
®
>@
0,13/4
සࡕ
°
°
¯
03/4
සࡕ!
p
现在,把两人的最佳反应函数如下图那样画在一起,得到三个交点:(*,
p
,(*,*)=(3/4,1/4)和(*,*)=(1,1)。*)=(0,0)
pqpqq
p
1
3/4
01/41
q
反应函数曲线相交方法
其中,(*,*)=(0,0)和(*,*)=(1,1)这两个纳什均衡,是
pqpq
原来我们用相对优势策略下划线法已经做出来的,就是两人一起选德语的纳
什均衡和两人一起选法语的纳什均衡。可见,反应函数曲线交叉法也可以把
纯策略纳什均衡找出来,只不过要计算期望支付或期望得益,要计算反应函
数,工作量要大一些。但是,这个博弈的另外一个纳什均衡,即混合策略纳
什均衡(*,*)=(3/4,1/4),以前用劣势策略消去法和相对优势策略下划
pq
线法就做不出来,现在可以用反应函数曲线相交的方法做出来。这就是反应
| 第四章 混合策略与均衡筛选 | 133 |
函数法的价值。
算出(*,*)=(3/4,1/4)这个纳什均衡,看看它有什么含义。这个
pq
纳什均衡是说,既然陈明偏向德语,他最好以3/4即75% 的概率选德语,既
然钟信偏向法语,他最好以1/4即25%的概率选德语。
这有什么意思呢?如果陈明以3/4 的概率选德语,钟信以1/4的概率选德
语,那么陈明的期望支付是:
U
C
(*,*)=*(4*–1)–2(*–1)=0–2×(–3/4)=3/2
pqpqq
而钟信的期望支付是:
U
Z
(*,*)=*(4*–3)+3–2*=0+3–3/2=3/2
pqqpp
都没有(*,*)=(0,0)大家一起选德语U(*,*)=3,U(*,*)=2
pqpqpq
CZ
和(*,1)大家一起选法语U(*,U(*,*)=(1,*)=2,*)=3来得好。
pppqqq
CZ
可见,纯策略纳什均衡比混合策略纳什均衡具有支付优势,得益优势,即帕
累托优势。局中人的境况,处于纯策略纳什均衡的时候比处于混合策略纳什
均衡的时候要好。
由此可以体会,在这种纯策略纳什均衡和混合策略纳什均衡都存在的情
况下,博弈论往往把“优先权”给予纯策略纳什均衡。所以,就陈明和钟信
这两位好朋友决定选德语还是选法语的博弈中,结局不是一起选德语,就是
一起选法语,这两个纳什均衡都具有绝对的支付优势、帕累托优势。绝对优
势指的是两人的情况都变好,而不仅是两人的情况加起来变好。现在,在纯
| 134 | 博弈论平话 |
策略纳什均衡双方无论是得3还是得2,都比在混合策略纳什均衡各人都只得
2/3要好,所以是绝对的帕累托优势。
陈明和钟信选修第二外语的博弈只进行一次,所以既然有纯策略纳什均
衡,实际结局就不会是混合策略纳什均衡,何况纯策略纳什均衡还有绝对的
帕累托优势。但是情侣博弈有别的版本,如果真是恋人周末节目选择的博弈,
那么这种博弈在许多周末都要进行,这样,情侣博弈就变成重复多次的博弈。
这个时候,混合策略纳什均衡中的概率,就有多次博弈采取什么纯策略的概
率讨论的意义。
有兴趣的读者可以把前面几章讲过的各种博弈拿来试试,看看能否掌握
计算混合策略纳什均衡的反应函数曲线相交方法。算完以后验算的时候,我
告诉你一个窍门:如果这个博弈原来就有纯策略的纳什均衡,那么只要你算
得正确,你算出来的结果一定包含原来知道的那些纯策略纳什均衡。
扑克牌讹诈游戏
外交谈判是博弈论研究的重要课题。第二次世界大战前夕,英、法与德、
意签订《慕尼黑协定》,将捷克斯洛伐克出卖给纳粹德国,纵容了侵略,助长
了法西斯的气焰,后来导致了第二次世界大战的爆发。在慕尼黑谈判中,纳
粹头子希特勒出尔反尔,得寸进尺,一再进行讹诈,而商人出身的英国首相
张伯伦却一味退让,始终不想摊牌。从博弈论的角度来看,张伯伦输掉了人
类历史上最要紧的一次外交博弈,其后果是几千万人在随后爆发的第二次世
界大战中丧失了宝贵的生命。
现在,我们通过一个扑克牌讹诈游戏来模拟和分析慕尼黑谈判的策略博
弈,这个游戏取自S. Vajda的《博弈论与线性规划》(
Theory of Games and
Linear Programming
,
Wiley,1956年)一书。
设有甲、乙两个人用扑克牌玩讹诈游戏,玩法如下:
每次,甲抽一张牌,看过后盖好。这时,甲可以博,也可以认输。如果
甲认输,甲就输给乙a根火柴。如果甲博,乙可以认输,也可以要求摊牌。
如果乙认输,则不管甲抽到的是黑牌还是红牌,乙都输给甲a根火柴。如果
乙要求摊牌,则当甲抽得黑牌时乙输给甲b根火柴,当甲抽得红牌时甲输给
乙b根火柴。我们还规定b>a。这里,a是起点,b是加码,所以b>a是很
合理的要求。
甲抽到黑牌,毫无疑问是要博的,因为这样他至少可以赢得a根火柴。问
题是抽到红牌怎么办,还博不博。因此,甲有两种纯策略:抽到红牌就认输
的“不讹诈策略”和抽到红牌也要博的“讹诈策略”。
乙只有当甲博时才有影响一局博弈的机会,所以乙也有两种纯策略:只
| 136 | 博弈论平话 |
要甲博就要求摊牌的“摊牌策略”和只要甲博就认输的“不摊牌策略”。
这样,我们就可以把这个扑克牌讹诈游戏的支付矩阵写下来:
乙
摊牌策略不摊牌策略
讹诈策略
甲
不讹诈策略
–()/20
b–a
()/2
b–a
0
0–
0
a
a
扑克牌讹诈游戏的支付矩阵
对于这个支付矩阵的具体计算,需要说明如下:
首先,因为甲赢的就是乙输的,甲输的就是乙赢的,所以这是一个零和
博弈。
现在,设甲取讹诈策略,乙取摊牌策略,就是博弈表格的左上方格子。
若甲抽得红牌,则甲赢得–;若甲抽得黑牌,则甲赢得。因为甲抽到黑牌
bb
和抽到红牌的概率是一样的,都是1/2,所以甲赢得和甲赢得–的概率都是
bb
1/2。由此可见,平均来说每局甲的得益是/2+(–)/2=0。因为是零和博弈,
bb
可以判断平均来说每局乙的得益也是0。矩阵左上角的支付(0,0)就是这样
得到的。
设甲取讹诈策略,乙取不摊牌策略,即博弈表格的右上方格子。这时候,
每局甲不管抽得什么牌都博,而乙老是认输,所以每局总是甲赢得,乙赢
a
得–。
a
设甲取不讹诈策略,乙取摊牌策略,即博弈表格的左下方格子。因为甲
以1/2的概率抽到黑牌,这时他博,而乙要求摊牌,结果甲赢得;甲以1/2
b
| 第四章 混合策略与均衡筛选 | 137 |
的概率抽到红牌,这时他认输,结果赢得–。所以平均来说每局甲的赢得是
a
[+(–)]/2=(–)/2。因为是零和博弈,我们也知道平均来说每局乙的赢得
baba
是–(–)/2。
ba
设甲取不讹诈策略,乙取不摊牌策略,即博弈表格右下方格子。因为甲
以1/2的概率抽到黑牌,这时他博,乙认输,结果甲赢得;甲以1/2的概率
a
抽得红牌,这时他认输,结果赢得–。因此甲在支付矩阵的右下方所得是[+
aa
(–)]/2=0。这样,我们知道乙在支付矩阵的右下方所得是–0=0。
a
按照博弈论普及讲座的经验,如果我们把讹诈策略写成“红牌也博”策
略,把不讹诈策略写成“红牌不博”策略,对于读者理解支付值的上述计算
颇有好处。
乙
摊牌策略不摊牌策略
讹诈策略
p
甲
不讹诈策略1–
p
–()/20
b–a
()/2
b–a
0
0–
0
a
1–
a
计算扑克牌讹诈游戏的纳什均衡
现在我们采用反应函数法,计算扑克牌讹诈游戏的纳什均衡。道理和方
法同上面做过的完全一样,可以算出甲的期望支付是:
U
A
(p, q) =p(1–q)a+(1–p)q(b–a)/2
=p[a–q(b+a)/2]+q(b–a)/2
| 138 | 博弈论平话 |
乙的期望支付是:
U
B
(p, q)=q[p(a+b)/2–(b–a)/2]–pa
所以,他们的反应函数分别为:
02/()
සࡕ
qaba
!
pqa
°
°
®
>@
0,12/()
සࡕ
°
ba
°
¯
12/(
සࡕ
qaba
)
1()/()
සࡕ
pbaba
!
qpbaba
°
°
®
>@
0,1()/()
සࡕ
°
°
¯
0()/()
සࡕ
pbaba
这样,把他们的反应函数曲线画在一起,可以看到只有一个交点。
p
1
(–)(/+)
baba
02 /(+)1
aba
q
反应函数曲线相交法
| 第四章 混合策略与均衡筛选 | 139 |
据此,我们得到这个博弈唯一的纳什均衡:
(*,*)=((–)/(+),2/(+))
pqbabaaba
因为
1–((–)/(+))=2/(+)
babaaba
我们知道在这个均衡,甲的策略选择是:
(–)/(+),2/(+)),)=(
babaabap
pp
=(
12
乙的策略选择是:
,(–)/(+)),)=(2/(+)
babaqaba
=(
12
| 140 | 博弈论平话 |
慕尼黑谈判模拟
从扑克牌讹诈游戏这个例子,可以得到什么教益呢?
我们开始规定了>>0。注意比大,才值得一博。现在,我们把上
baba
一节算出来的甲的均衡混合策略,分子分母同时除以,改写为:
a
pp
=(
12
,)=([(/)–1)]/[(/)+1],2/[(/)+1])
pbababa
这样就可以看出,的值取决于与的比值/。当/接近1即接近
pbabababa
时,甲采用讹诈策略的概率应该接近0。所以,若与相差无几,甲是不
pba
1
值得冒险讹诈的。但是相反,/越大的时候,即博杀的份量比下注的份量
bab
a
大得越多时,就越值得采取讹诈策略。这从下面的表可以看得很清楚:
b/app
10%100%
233.3%66.7%
980%20%
1990%10%
9998%2%
12
同样,改写以后的乙的均衡混合策略为:
=(
q
12
,)=(2/[(/)+1],[(/)–1)]/[(/)+1])
qbababa
q
可以看出,乙的最优混合策略的情况正好相反:和越接近,就越应当
ba
| 第四章 混合策略与均衡筛选 | 141 |
多采取摊牌策略;比大得越多,就越应当多采取不摊牌策略。
ba
虽然慕尼黑谈判的实际情况很难完全用这样简单的一个扑克牌讹诈游戏
的博弈模型来模拟,但它仍能给我们以深刻的启示。
首先,这是一个甲方总不吃亏的模型。慕尼黑谈判时的形势是怎样的呢?
当时,英法要安抚纳粹德国,这就注定德国是不会吃亏的。但从另一方面说,
纳粹德国刚刚从第一次世界大战后严厉的军备限制中挣扎出来不久。虽然希
特勒野心极大,但当时纳粹德国的实际力量还不足以与英法抗衡。如果说谈
判破裂会给英法带来损失的话,那么这个损失()也不会比英法原已准备作
b
出的让步()大多少。所以,按照上述扑克牌讹诈博弈的纳什均衡所揭示的,
a
作为乙方的英法方面,应该多考虑采用摊牌策略。但是,张伯伦一味退让,
不敢考虑摊牌,结果被希特勒窥破英法以绥靖求和的心态,在谈判中一再加
码,要价越来越高,最终导致捷克斯洛伐克的沦陷和第二次世界大战的爆发。
聚点均衡
我们已经知道,许多博弈有不止一个纳什均衡。有些博弈甚至有无穷多
个纳什均衡。简单说来,纳什均衡说的是博弈各方的策略的稳定的对局。既
然这样,那么当博弈有不止一个纳什均衡的时候,自然产生从这些均衡中筛
选出看来更加稳定和最稳定的纳什均衡的问题。博弈的最终结果,应该是那
些更加稳定和最稳定的纳什均衡。
在博弈有多个纳什均衡的情况下,哪个纳什均衡最有可能成为最终的博
弈结果,往往取决于某种能使博弈参与人产生一致性预测的机制或判断标准。
在现实生活中,人们往往可以通过一些约定俗成的观念或者某种具有一定合
理性的机制,引导博弈的结果朝着比较有利于参与人的方向发展。
我们在前面已经谈过帕累托优势标准和风险优势标准,以及这两个标准
合策略均衡排除掉。在剩下的两个纯策略均衡中,最终哪一个会出现,我们
是无法仅仅通过理性假设本身推断出来的,往往需要借助一些双方都认可的
默契、约定或其他机制。如果那天是女方的生日,(芭蕾,芭蕾)就可能是他
们情侣博弈的聚点均衡;如果男的刚刚因为学习或者工作得奖,(足球,足球)
就可能是这种情况下他们情侣博弈的聚点均衡。
现在考虑这样的游戏:在自愿者当中随机抽取两个人,抽取后才告诉他
们请他们参加如下的名为“心有灵犀一点通”的有奖游戏,他们要在没有沟
通的情况下同时各自写下一个数字密封投标,如果两人所写的数字一样,他
们都将获得相当丰厚的奖励,但是如果两人所写的数字不一样,他们将无功
而返。
很明显,这个博弈有无穷多个纳什均衡:两人都写1是这个博弈的纳什
均衡,两人都写2,都写3,都写4,等等,都是这个博弈的纳什均衡,两人
都写0,都写–273,等等,也都是纳什均衡,还有两人都写7.23,都写96.77,
等等,仍然是纳什均衡。问题是尽管纳什均衡那么多,两人策略选择的对局
恰巧是纳什均衡的机会却很小。说得入理一些的话,读者应该认识到,正是
因为博弈的纳什均衡太多,两人策略选择的对局“恰巧”成为纳什均衡的机
会很小。既然纳什均衡非常多,那么可供每个参与人选择的作为均衡策略的
策略就非常多,从而参与人不知道选择其中哪个策略是好。事实上,在这个
游戏中,可供参与人选择的每个策略都有可能成为他的纳什均衡策略,条件
是对方也正好选择这个策略!可是,要求对方在无穷多可供选择的策略里面
恰恰选择你选择了的那个策略,概率之小真是超乎你的想象。
这是理论的分析。
然进入游戏以来一直没有沟通的机会,甚至两人原来根本就不认识,但是两
位参与人一定会不约而同地把候选策略集中在1和10这样少数几个数字,一
般不会考虑2、3、0这些数字,除非自己对于这些数字当中的某一个有特殊的
兴趣,并且确信对方也正好对于这个数字有同样的兴趣,更加不会考虑选择
–273、7.23、96.77这样的不常见的数字。1和10容易成为“聚点”,是因为1
代表万物之始,10迎合中国人的圆满习惯:十全大补啦,十大功臣啦,十大
罪状啦等。可是北京人讲究六六大顺,说不定会聚点到6,香港人讲究与“发”
字的韵母谐音,多半圆整到8。这些因素属于地域文化。时尚因素也会发生作
用,比如一群中学生刚刚看完电影《女篮5号》或者《女足9号》,他们当中
两个人被抽中参加这个游戏,那么5和9就很有“凝聚力”。
在面临许许多多可能的均衡的时候,聚点均衡的概念帮助我们从似乎束
手无策的局面中解脱出来。
| 第四章 混合策略与均衡筛选 | 145 |
聚点均衡作为共识均衡
我们还可以设想大海和丽娟电话打到一半,线路不知道为什么突然中
断,这时候他们该怎么办?假如大海马上主动再给丽娟打电话,那么丽娟应
该留在电话旁等待,自己不要主动打过去给大海,好把自家电话的线路空出
来。但是,假如丽娟等待大海给她打电话以便继续谈下去,而大海却也在等
待,那么他们的谈话就“永远”没有机会继续下去了。事实上,在这个如何
恢复通话的博弈中,两个明显的纯策略纳什均衡,是(主动,等待)和(等待,
主动)。问题是他们应该“收敛”到哪一个纯策略纳什均衡。
如果他们已经预先商量过要是通话当中线路突然中断该如何恢复通话,
宜,不计较究竟由谁负担。经济讨论中常常有这样的情况,就是不知道自己
已经引入了或者陷入了一些隐含的条件,而这些隐含前提或者条件却十分重
要,会给结果带来实质性的影响。
我们现在分析通话的双方对于这次通话的价值评估不一样的情况。比如
大海很想跟丽娟讲话,丽娟却不那么在意,或者要表示不那么在意,那么他
们自然默契到大海重新打过去的那个纳什均衡。至于张三打电话求李四办什
么事情,就更是这样的情形,才不管究竟谁是包月电话谁是计时电话。
像上一节讲的“心有灵犀一点通”的游戏那样,在利益完全一致的情况,
博弈双方能否实现对双方都最有利的纳什均衡,要看他们默契的程度怎样。
聚点均衡的制度设置
从上面两节的例子可以看出,聚点均衡的概念反映了人们在多重纳什均
衡的选择中的某些规律性,但因为它所涉及的方面众多,往往受博弈双方文
化背景中的习惯或规范的影响,很难总结出能够形成条条框框具有普遍性的
规律,只能具体问题具体分析。比如说猜数字的游戏,谁能说一定就聚点到
10而不是6呢?
为了进一步探讨这个问题,现在我们设想北京两所学校的两个互相并不
认识的同学,被主办方配对参加一种游戏,要求他们配着同样的袖标,从相
距20公里的两所学校出发,到天安门广场相认。在相认以前,他们都不知道
自己参加这个游戏的“另一半”是谁。从出发到成功相认,需要的时间越短,
奖励越高。
天安门广场很大,但是环境比较单纯。我们可以设想这个游戏的两位参
与人,都尽快向天安门广场集中,不约而同地在国旗与金水桥之间那块不大
的地方搜求自己的“另一半”。他们的利益高度一致。在国旗与金水桥之间那
增加了。两位不相识的学生,仅凭同样的袖标,在上海人民广场相认,谈何
容易!大剧院、博物馆、中心的喷泉广场,作为在人民广场相认的地标,都
不相上下。究竟是在大剧院前面,还是在博物馆前面,还是在中心喷泉广场
的花圃旁边依袖标相认,实在说不上哪个地方更加合适,说不上哪个地方能
够成为自己和不相识的对方的共同首选。学生比较爱好地面上的标志性建筑。
如果是老头老太,说不定觉得地铁地下广场一角的“上海1930风情街”更加
合适呢?
鉴于在许多情况下形成聚点均衡的途径的多样性,鉴于“心有灵犀一点
通”的境界要求太高,人们发明了一些非常简单的制度设置,帮助这些协调
博弈的各方迅速收敛到合适的聚点均衡。对于“定点相认”的问题,在可能
成为“定点”的“点”,索性树立“相遇点”(meeting point)或者中国人说的
“碰头点”,就是这样的一种制度设置。
有了这种相遇点标志,当两位朋友约好某个时刻到达一个双方都没有去
过的地方会合的时候,迅速会合的搜索成本就会大大减少。比如两个朋友约
好2006年6月9日德国世界杯足球比赛开幕式以前在柏林6.17大道的柏林世
界杯球迷乐园会合,他们都没有去过那个地方。但是不要紧,市政当局在已
经成为乐园中轴的6.17大道的中心,树立了一个很大的MEETING POINT。
对于6.17大道柏林世界杯球迷乐园的环境并不熟悉的球迷,只要认准了这个
相遇点,就能够比较容易在那里相遇。
写到这里,不由得感叹谢林教授等博弈论大师对于社会进步的贡献。既
不是GDP,又没有大事宣扬,而且完全不计较发明权,博弈论的思想就这样
改善着人们的生活,哪怕很不起眼。
现在一些游客集中的地方,我们可以同时看到好几块标记“相遇点”的
| 第四章 混合策略与均衡筛选 | 149 |
牌子,相距都是二三十米光景,分别写着MEETING POINT 1,MEETING
POINT 2,MEETING POINT 3字样。
如果玩的还是前面那种让两个互相并不认识的同学“相认”的游戏,遇
上这种一连好几个“相遇点”牌子,可就让人犯难了:几个相遇点,究竟“认”
哪个相遇点才是?因为游戏中需要认出来的对手,原来并不相识啊。所以,
对于互不认识的同学“相认”这种游戏,最好还是只有一个相遇点。
不过我们要知道,现在之所以在游客集中的地方设置多个相遇点,不是
出于互不认识的同学“相认”这种游戏的考虑,而是为了给原来已经相识或
者至少已经知道的朋友在那个地方相会提供方便。你甚至可以设想他们不仅
相互知道,并且都带着手机。这样,一位先到了,告诉对方自己站在第几号
相遇点,那么另外一位就很容易找到他了。
在手机普及的时代,相遇点的作用和设置,也在与时俱进。
相关均衡
这一节介绍(correlated equilibrium)的概念,它是由奥蒙在
相关均衡
1974发表在《数理经济学杂志》的一篇文章中提出来的。相关均衡的基本思
想是,参与人通过一个大家都能观测到的共同信号来选择行动和策略,由此
确定博弈的最终结局。这种大家都能观测到的共同信号,可以是参与人事前
商定的信号。例如,两个人要在什么地方会合进行什么游戏,他们在博弈开
始的前一天约定,双方根据第二天到达集中地点的先后顺序选择行动,比如
说:“如果甲先到,则甲选择上策略,乙选择左策略;如果乙先到,则甲选择
下策略,乙选择右策略”,这样,在第二天“真正进行”这个博弈的时候,因
为谁先到达集合地点的事实是明确无误的事实,而且是博弈的参与人具体开
始策略选择之前双方的共同知识,所以博弈容易协调到它的一个纳什均衡。
当然,你也可以把博弈看做更早一点开始,比方说某方觉得按照约定,
自己先于对方到达而形成的博弈结果对自己更加有利,他可以努力先于对方
次商议。
把上面这个如果下雨就取消活动的例子略加修改,变成如果下雨就一
起去看电影或者做其他双方都有共同兴趣的事情,就得出一个更加丰富的
新例子。
看到这里,可能有些读者要问:这样的例子不是很多吗?没有博弈理论,
大家已经这样做了。这与博弈论有什么关系?
首先需要指出,博弈论的一些概念,的确是人类历史进程中智慧启发的
结果。首先,这本身并没有什么不好。一种新概念的提出,一种新概念的明确,
只要是能够从学理上加深人类对于事物的理解,就值得称赞,如果能够从学
理上把人们原来多少有点朦胧的做法提炼为规律,同样值得称赞。
其次,提炼出明确的学术概念以后,会在许多原来不曾涉及的领域发
挥作用,造福人类社会。具体到相关均衡的概念,限于本书普及博弈论中
一些容易被大众接受的概念、方法和理念的宗旨,我们不拟展开它在其他
领域的进一步应用,而宁愿以信息经济学中所罗门王断案模型的例子,给
大家一个比喻。
据《旧约全书·列王纪上》第3章,两个女人为争夺一个孩子吵到所罗
门王那里。一个女人说:“陛下,我和这妇人同住一个房间。我生了一个孩子,
三天以后这妇人也生了一个孩子,房间里再没有别的人。夜里这妇人睡觉的
把孩子劈成两半,一半给这个妇人,一半给那个妇人”。一个女人赶紧说:“大
王把孩子给那个妇人算了,万不可杀他。”另一个女人说:“这孩子既不归我,
也不归她,劈了算了。”所罗门王知道心疼孩子的女人是活孩子的母亲,便吩
咐下人把孩子给她。
这是信息经济学发掘的获取和甄别信息的范例。一直到现在,经济学家
还在继续讨论和发掘所罗门王断案的故事。例如,以色列一位教授和美国一
位教授大约10年前合写的一篇论文,就把竞相投标一项工程的两个企业,看
做两个“妇人”,其中一个企业实力可靠,另一个企业只是想夺标以后赚取转
包的利益。模型把实力可靠的企业,看做活孩子的母亲,把只是想夺标以后
赚取转包利益的企业,看做死孩子的母亲,讨论如何设计规则和机制,获取
和甄别究竟谁是活孩子的母亲谁是死孩子的母亲的信息。
最后需要说明,相关均衡概念中按照约定信号的行动和策略选择,必须
是在信号出现的情况下对每个博弈参与人有利的行动和策略选择,不能是在
某种预见信号出现的情况下损害参与人利益的行动和策略选择。总之,这种
约定在每一个环节都是参与人自身利益之所在。采用信息经济学的语言,这
种约定是激励相容的约定,也就是说在出现那种信号的情况下,参与人按照
约定去做,才是自身利益最大化的要求,而不是明明不利也要履行的条约或
商品品牌的“地域连坐”效应
这一节,我们借着聚点均衡和相关均衡,说说商品品牌的“地域连坐”
效应。大家知道,连坐体现了“相关”的思想,而文化是聚点均衡的重要背景。
2005年初夏,北京市有关部门发函责令全市停止购进和销售产自广东潮
安的果脯、蜜饯。这一举措,引发潮安方面的震动。双方口角比较紧张的时
候,批评北京方面实行“地方保护主义”和实行“株连政策”的说法特别刺耳。
但是,这种批评有很多站不住脚的地方。
首先看地方保护主义。报道说,北京方面动作以后,潮州市质监部门迅
速组织对被曝光的12家不合格企业进行查处。这是好的。但是在北京方面动
作之前,为什么没有“迅速”行动呢?报道说,潮安方面对全市所有生产果脯、
蜜饯产品的企业的“专项抽检行动”也于北京方面发函次日展开。可见,潮
安的质监部门对于企业的不合格生产早有所闻,但是一直舍不得出手。既然
这样,还是首先反省自己的地方保护主义吧。
至于株连政策的批评,我倒愿意在这里指出,不管你赞成不赞成,也不
管你容忍不容忍,随着消费者自我保护意识的增强,品牌的地域连坐,至少
在今后一个非常长的时期内,不但不会消失,反而可能加强。我们对于市场
和社会的这样一种发展态势,要有清醒的认识,这样才能自觉把好质量关,
努力把事情做好。
听说这次磋商之中,出现过关于检测标准的争议,有些人还埋怨北京方
因为潮安也有一些优秀品牌,可是在潮安产品良莠不齐的情况下,消费者却
没有这份精力来区分。对于他们来说,最方便最稳妥也最节约的办法,可能
就是不再购买潮安的产品。这种现象,就是企业品牌的地域连坐效应。
买卖是自愿的行为。这句话非常平凡,却是市场经济的一个基点。比较
学术化一点的说法,则是“消费者主权”。现代社会充满信息不对称的现象。
为了抵消信息不对称给自己的优良产品的销售带来的负面影响,生产者会苦
心树立品牌形象,让他们的产品从良莠不齐的环境中崭露头角,获得消费者
的厚爱。但是如果一个地方的产品,有很多是伪劣产品,那么你不能埋怨“主
权在手”的消费者“不分青红皂白”一股脑儿不买你这个地方的产品,因为
区分商品需要很大的成本。
消费者主权是有道理的,但是消费者主权也是不讲道理的。前面半句话
是对品牌的地域连坐的认识,后面半句话说的是:你不能抱怨消费者不买你
的东西,他不需要和你讲道理。可见,地域品牌是一种公共产品,政府必须
投资和致力于地域品牌的建立、维护和提升。当“潮安制造”或者“潮安出品”
生产已经很有保证,也难免个别企业“搭便车”利用看好的地方品牌,“夹带”
自己不合格的产品,败坏这个地域品牌。
所以,尽管我不敢说北京方面的做法是否完全无懈可击,但是却衷心希
望,各地的食品办和工商管理部门能够像北京那样勇敢地负起责任,在消费
市场上为老百姓保一方平安。什么时候大家都能够封杀可能严重损害居民健
品牌地域连坐的博弈分析
前面我们说过,现代市场现代社会充满信息不对称的现象。为了抵消信
息不对称给自己的优良产品的销售带来的负面影响,生产者会苦心树立品牌
形象,让他们的产品从良莠不齐的环境中崭露头角,获得消费者的厚爱。但
是如果一个地方的产品,有很多是伪劣产品,那么你不能埋怨“主权在手”
的消费者“不分青红皂白”一股脑儿不买你这个地方的产品,因为区分商品
需要很大的成本。所以,商品品牌的地域连坐做法,有它一定的合理性。
为简单起见,假设一个地方生产某种商品的企业只有两家,它们的产量
都是1万件。它们生产的这种商品的规格和质量,理应一样。不过现在,它
们的品牌都还没有树立起来。
假设它们生产的都是规格质量过硬的商品,那么每生产一件商品的成本
是8元,商品可以实现的价格是每件12元。如果它们生产的都是规格马虎质
量欠佳的商品,那么每生产一件商品的成本是2元,商品可以实现的价格是每
件4元。而要是它们一家生产规格质量过硬的商品,另外一家生产规格马虎
质量欠佳的商品,那么因为顾客不能区分比较好的商品和比较差的商品,有
时候运气好买到好的商品,有时候运气差买到差的商品,所以它们混同在一
起能够实现的市场价格是每件7元。
乙企业
好差
好
甲企业
差
–12
52
45
4–1
良莠不齐的质量博弈
其中,如果两家企业都生产好的商品,每家企业的成本是8万元,销售收
入是12万元,实现利润4万元;如果两家企业都生产差的商品,每家企业的
成本是2万元,销售收入是4万元,实现利润2万元;如果只有一家企业生产
好的商品,这家企业的成本是8万元,另外一家企业生产差的商品,这家企
业的成本是2万元,可是由于鱼目混珠,它们的销售收入都是7万元,结果生
产差的商品的企业因为能够以次充好实现利润5万元,而老老实实生产好的
商品的企业,因为好端端的商品被连累,7万元销售收入减去8万元生产成本,
结果亏了1万元。
在这种良莠不齐的市场环境中,生产差的商品居然变成每家企业的严格
优势策略,从而两家企业都生产差的商品成为这种博弈格局唯一的纳什均衡。
真是可悲。为什么不能双方都生产好的商品,大家都实现4万元的利润呢?
这里面的逻辑,就是辛辛苦苦生产好的商品,好处都给别人沾光了,自己得
不偿失,相反,对付着生产差的商品出来,总是赚进来不少。
理论上说,有一种解脱这种囚徒困境的办法,那就是把消费者都训练成
辨别优劣的行家里手。这样一来,设想差的商品也能够对付着用,可以卖出
每件3元的价格,那么两家企业面对的市场形势就变成了下面的情况:
| 158 | 博弈论平话 |
乙企业
好差
41
44
41
11
好
甲企业
差
井水不犯河水的质量博弈
因为假设消费者能够很容易区分好的产品和差的产品,从而每家企业只
对自己的行为负责,结果当然很好。这时候其实只有企业决策,没有什么博
弈。问题是把消费者训练成辨别商品的行家里手,这个代价太大了。如果一
个社会要依靠把消费者训练成辨别商品的行家里手才能够好好运行下去,这
将是社会资源的极大浪费。全社会人民的聪明才智都被引导去辨别商品的质
量,这样的结果真是不可想象。
在商品已经比较丰富、不用担心供应的情况下,商品品牌的地域连坐,
恐怕还是一项相当有效的政策。
现在我们保持过硬商品的生产成本是8元、质量差商品的生产成本是2元
这个条件不变。如果这里市场上这两家“外地”企业供应的都是质量过硬的
商品,那么这些商品可以实现的价格还是每件12元,而如果这个地方的市场
发现这两家“外地”企业供应的商品中存在不合格商品,就禁止它们生产的
商品进入这里的市场。这就是地域连坐。在实行地域连坐的条件下,两家企
业的博弈变成下面的情况:
| 第四章 混合策略与均衡筛选 | 159 |
乙企业
好差
4–2
4–8
–8–2
–2–2
好
甲企业
差
地域连坐条件下的质量博弈
运用相对优势策略下划线法,我们知道这个博弈有左上方和右下方两个
纳什均衡,分别是两家企业都生产好的商品和两家企业都生产差的商品。但
是,企业总是要赚钱的,所以两家企业都会收敛到都生产好的商品的那个纳
什均衡。事实上,左上方的纳什均衡比右下角的纳什均衡具有明显的帕累托
优势。如果一个博弈的某一个纳什均衡比其他纳什均衡具有帕累托优势,那
么这个纳什均衡就是该博弈的归宿。
2005年初夏,北京市有关部门发函责令全市停止购进和销售产自广东
潮安的果脯、蜜饯以后,潮州市质监部门迅速组织对被曝光的12家不合格
企业进行查处,潮安方面对全市所有生产果脯、蜜饯产品的企业的专项抽检
行动也于次日马上展开。这就是收敛到两家企业都只生产好的商品的那个纳
抗共谋均衡
前面谈过的筛选多重纳什均衡的方法,基本上局限于二人同时决策博
弈的情形。如果博弈的参与人多于两个,有可能会发生部分参与人联合起
来追求小团体利益的共谋行为,从而导致均衡情况的变化。为此,本海
姆(B. Douglas Bernheim)、别列葛(Bezalel Peleg)和温斯顿(Michael D.
Whinston)在1987年的两篇论文中提出了抗共谋纳什均衡的概念,简称为
抗
,对纳什均衡的概念作进一(coalition-proof Nash equilibrium)
共谋纳什均衡
步的筛选。
首先,当博弈的参与人不止两个的时候,怎样描述一个博弈呢?让我们
通过具体的例子来说明。假定一个博弈有三个参与人甲、乙和丙,参与人甲
有U和D两种纯策略可供选择,参与人乙有L和R两种纯策略可供选择,参与
人丙有A和B两种纯策略可供选择。至于各种策略组合之下三位参与人的支
付如何确定,就不具体说明了。
二人博弈便于用平面矩阵来表示,三人博弈理应采用立体矩阵格子。可
是立体的东西难以画在平面上,我们就把它切成几层,摊开在平面上。现在
参与人丙有两种纯策略可供选择,我们就把立体矩阵格子切成两片,铺开在
纸上,变成下页的组图。
每个格子里面,第一个数字是参与人甲的支付,第二个数字是参与人乙
的支付,第三个数字是参与人丙的支付。这样,因为在所有2×2×2=8种纯
策略组合下三位参与人的支付都已经清楚,整个博弈就表达清楚了。我们就
利用这个博弈说明抗共谋均衡的思想。
采用相对优势策略下划线法容易知道,这个博弈存在两个纯策略纳什均
| 第四章 混合策略与均衡筛选 | 161 |
乙
LR
甲
U
D
0, 0, 10–5, –5, 0
–5, –5, 01, 1, –5
参与人丙选择A
乙
LR
甲
U
D
–2, –2, 0–5, –5, 0
–5, –5, 0–1, –1, 5
参与人丙选择B
一个三人博弈,各两策略
衡(U,L,A)和(D,R,B),并且前者帕累托优于后者。按照我们已经介
绍过的筛选多重纳什均衡的方法,因为纳什均衡(U,L,A)帕累托优于(D,
R,B),该博弈的结果应当是(U,L,A)这个纳什均衡。
但是,如果我们考虑到参与人之间存在共谋的可能性,则(U,L,A)
并非博弈的最终结果。因为如果参与人丙按照纳什均衡(U,L,A)的指引
选择矩阵A,则只要参与人甲和乙达成一致行动的默契,分别采用策略D和
策略R,他们就都能获得1单位的得益,大于他们在纳什均衡(U,L,A)时
得到的都是0的得益。
我们一再强调,纳什均衡的精髓,是单独偏离没有好处,即参与人单独
改变策略选择没有好处。问题是在纳什均衡要求的单独偏离没有好处的情况
下,仍然可能存在若干参与人集体偏离或者说共谋偏离的激励。如果一个纳
什均衡虽然因为纳什均衡本身的要求排除了参与人单独偏离的激励,但是却
存在若干参与人集体偏离的激励,我们很难认为它是博弈的稳定的结果。
| 162 | 博弈论平话 |
这就出现上述博弈的两个纯策略纳什均衡(U,L,A)和(D,R,B)
孰优孰劣的问题。从寻求稳定性最好的博弈结果的角度看,不仅纳什均衡概
念本身不能最后解决这个问题,而且我们上面已经介绍过的各种筛选纳什均
衡的标准,如帕累托效率标准和风险优势标准,仍然未能彻底解决问题。面
对这种新的情况,必须引入新的概念和新的思想,进行新的分析。
要排除参与人之间共谋的可能性,需要借助抗共谋均衡的思想。抗共谋
纳什均衡与一般纳什均衡的区别,主要是在没有单独偏离的激励的基础上,
进一步引入了没有集体偏离的激励的要求。也就是说,一个策略组合之所以
成为抗共谋纳什均衡,不仅要求参与人在这个策略组合下没有单独偏离的激
励,而且也要求他们没有合伙集体偏离的激励。
回到我们现在具体讨论的博弈,就可以知道,纯策略纳什均衡(U,L,A)
不是抗共谋纳什均衡,因为在参与人丙不改变策略选择的情况下,参与人甲
和乙共谋分别采用策略D和策略R,他们两人的得益就都能从0上升到1,而
且在他们做了图中箭头所示的共谋偏离以后,只要参与人丙的策略选择仍然
保持不变,甲乙二人都不会瓦解他们的偏离共谋。
但是,纯策略纳什均衡(D,R,B)却是抗共谋纳什均衡。事实上,如
果甲乙一起偏离,他们的博弈所得,都由–1下降到–2,所以甲乙不会共谋这
样的偏离;如果甲丙一起偏离,甲的支付从–1下降到–5,丙的支付从5下降
到0,所以甲丙不会共谋这样的偏离;同样,如果乙丙一起偏离,乙的支付从
–1下降到–5,丙的支付从5下降到0,所以乙丙也不会共谋这样的偏离;最后,
我们检查甲乙丙一起偏离的情况:的确,如果甲乙丙一起偏离,那就是他们
从(D,R,B)这个纳什均衡跳到(U,L,A)这个纳什均衡,甲乙丙三人
的支付分别由–1、–1和5增加到0、0和10。这看起来很好,问题是三个人一
| 第四章 混合策略与均衡筛选 | 163 |
起跳到(U,L,A)以后,正如前面分析过的,又出现了或者说形成了对于
其中甲乙二人共谋偏离到(D,R,A)的激励。我们到现在为止讨论的都是
完全信息的博弈。既然是完全信息,博弈发展的各种可能一目了然,丙就会
估计到如果他和甲乙一起从(D,R,B)这个均衡跳到(U,L,A)这个均衡,
就会造就甲乙共谋再次偏离的激励。具体来说,他们三人真的一起跳到(U,
L,A)这个均衡以后,甲和乙还会“背叛”原来的三人共谋,二人共谋偏离
(U,L,A)这个均衡。预料到这一切,丙怎么会同意和甲乙一起从(D,R,B)
偏离到(U,L,A)呢?
综上所述,纳什均衡(D,R,B)是一个抗共谋均衡。两个纳什均衡(U,
L,A)和(D,R,B)之中,(U,L,A)包含共谋偏离的激励,(D,R,B)
排除了共谋偏离的激励,在这个意义上,(D,R,B)这个均衡比(U,L,A)
这个均衡更加稳定,更有理由成为博弈的最终结果。
按照帕累托标准,(D,R,B)这个均衡比不上(U,L,A)这个均衡,
但是按照抗共谋的要求,(D,R,B)均衡又优于(U,L,A)均衡。关键看
采用什么标准。
| 164 | 博弈论平话 |
盯着不散伙的共谋
细心的读者会提出这样的问题:上一节那个三人博弈的两个纳什均衡之
中,另外一个均衡(D,R,B)也有合伙偏离的激励啊。在(D,R,B)这
个均衡,干脆三个人像虚线箭头所示那样一起偏离,那就走到(U,L,A),
结果三个人都得到改善,何乐而不为?
乙
LR
甲
U
D
0, 0, 10–5, –5, 0
–5, –5, 01, 1, –5
参与人丙选择A
乙
LR
甲
U
D
–2, –2, 0–5, –5, 0
–5, –5, 0–1, –1, 5
参与人丙选择B
一个三人博弈,各两策略
的确,如果在(D,R,B)这个均衡三人一起偏离,他们都将得到改善,
似乎他们会做这样的共谋偏离。可是三人一起偏离以后到了(U,L,A),正
如上一节已经说明清楚的,甲乙两人又有进一步沿着实线箭头合伙偏离的激
励。据此我们知道,三人共谋从(D,R,B)这个均衡偏离出去,这个合伙
是要散伙的,不能自我维持。相反,上一节演示的从(U,L,A)到(D,R,B)
的二人合伙偏离,他们两人合伙到了(D,R,B)以后,这个共谋是不会散伙的。
| 第四章 混合策略与均衡筛选 | 165 |
抗共谋纳什均衡要求的,是在参与人没有单独偏离的激励的基础上,再要求
参与人没有激励进行不散伙的共谋偏离。
在上面的图里,我们用实线箭头标记不散伙的共谋偏离,用虚线箭头标
记会散伙的共谋偏离。在考察一个纳什均衡是否抗共谋纳什均衡的时候,我
们不需要关注那些会散伙的共谋偏离。
实际上,会散伙的共谋偏离,本身就实现不了。就拿从(D,R,B)这
个均衡三人一起偏离来说吧,虽然这样的偏离看起来会使他们三个人都得到
改善,但是参与人丙只要不是太蠢,就会认识到这样三人合伙偏离以后,甲
乙两人又有两人进一步合伙偏离的激励,结果参与人丙在和甲乙一起偏离从
支付5改善到支付10以后,一定会跌到支付–5的境地。他才不肯干这样的傻
事呢。
为了进一步说明这个问题,我们看下图价格大战的囚徒困境。虽然看起
来双方有从唯一的纯策略纳什均衡(低价,低价)共谋偏离到(高价,高价)
这个策略组合的动机,但是真的按照虚线箭头所示到了那里以后,每个人都
有进一步单独偏离的激励,所以从(低价,低价)到(高价,高价)的合伙
偏离,一定会散伙。
百事可乐
低价高价
低价
可口可乐
高价
65
15
31
36
价格大战囚徒困境
| 166 | 博弈论平话 |
总之,在考察一个纳什均衡双方抗共谋纳什均衡的时候,我们不必理会
那些会散伙的合伙偏离。
最后我们指出,在二人博弈的情况下,本来也要考察博弈的纳什均衡是
不是抗共谋纳什均衡的问题,但是因为在二人博弈这样简单的情况下,抗共
谋纳什均衡已经和帕累托优势纳什均衡吻合,所以在二人博弈的基础上解说
抗共谋纳什均衡,就显得比较生硬。
为此,我们看前已熟悉的猎人博弈,它有(打兔,打兔)和(猎鹿,猎鹿)
两个纯策略纳什均衡。
猎人博弈在(猎鹿,猎鹿)这个均衡,自然双方不会共谋偏离到(打兔,
打兔),白白降低双方的所得,而在(打兔,打兔)这个均衡,双方却愿意共
谋偏离到(猎鹿,猎鹿)这个均衡,大家都获得改善。图中实线箭头表示的,
就是这种共谋偏离。所以在猎人博弈的两个纯策略纳什均衡之中,(猎鹿,猎
鹿)是抗共谋纳什均衡,而(打兔,打兔)这个纳什均衡则不是抗共谋纳什
均衡。很清楚,猎人博弈的这个抗共谋纳什均衡,也正好是帕累托优势的纳
什均衡。
乙
猎鹿打兔
猎鹿
甲
打兔
10
10
0
4
4
0
奥曼在1959年发表的一篇论文中提出了“强纳什均衡”的概念,它可以
说是综合了帕累托标准和抗共谋的要求。所以,从学术发展的历史脉络讲,
抗共谋均衡的概念是奥曼的强纳什均衡概念的放松。实际生活中,强纳什均
衡的要求往往显得太高了。
| 168 | 博弈论平话 |
德国世界杯警方的优势策略
2006年春夏之交,我随女儿作为德国旅游局的客人,赴德考察,正好赶
上2006德国世界杯足球赛。考察期间,也是我为本书打腹稿的时候。在世界
杯感受博弈论的理念,别有一番味道。
5月下旬我们来到德国的时候,这里世界杯的热潮已经高涨。人们穿着各
国的球衣,挥舞各国的国旗,佩戴各国球衣色彩的饰物,兴高采烈,充满期待。
许多插着国旗的汽车,从大街上驶过。最醒目的,自然是东道主的黑红黄三
色国旗。
除了进行比赛的12座体育场以外,德国的许多城市都在球迷和游客方便
的地方,安装了超大屏幕,供大家观赏世界杯所有比赛的即时实况转播。柏
林的一组超大屏幕,就竖立在城市轴心的6.17大道上。德国政府的这一举措,
显示了要把世界杯办成所有人的盛会的决心,办成全世界在德国联欢的一个
月。因为对于全世界涌到德国去的数以百万计的球迷和游客来说,世界杯比
赛毕竟一票难求。
这些大屏幕旁边,固然有五人足球比赛和足球射门游戏,还安装了摩天
轮和蹦极跳等游乐设施,运来许多洁白的细沙布置沙滩排球等沙滩节目,运
来许多细腻的黄沙供人做沙雕。大道两旁,则一溜子排开啤酒摊、小吃摊和
世界杯商品专卖摊,还有球迷信息中心。许多德国人觉得,外界对德国只知
道“啤酒、足球和希特勒”这三样东西。借2006世界杯在德国举行之际,他
们要改变别人对德国的印象。
慕尼黑的球迷大屏幕,矗立在奥林匹克公园的水上舞台,舞台下面就是
一样,非常惬意。世界杯小组赛期间,每天三场比赛,郊线地铁每两分钟一班,
源源不断把球迷和游客送来。虽然这里的游乐节目不像柏林6.17大道那么多,
但是因为地形得天独厚,气氛却似乎更加热烈。最出风头的是巴西球迷,他
们能歌善舞,鼓乐喧天,把桑巴跳到德国来,极富感染力。包括不懂足球的
人在内,整个德国就这样因为世界杯而沸腾起来。
小组赛期间,我们每天在大屏幕下面看三场球,有时候最后一场球在酒店
的球迷酒吧看。德国队比赛的时候,慕尼黑奥林匹克中心大屏幕下人山人海,
水泄不通。巴西队比赛和意大利队比赛的时候也是这样。人山人海,热闹张扬,
却能够相安无事,我们不由得赞扬德国居民的教养和德国警方的能力。
世界杯期间,最辛苦的应该是德国警察了。各地的球迷大屏幕下,都配
备了强大的警力。警察的作用,看来主要是对于不轨行为形成威慑和处理突
发事件。我们经常可以看到,四种不同制服的警察同时出现在不远的地方:
戴白顶绿边黑舌大盖帽的“文官型”警察,和戴绿色、蓝色、黑色三种贝雷
帽的“战士型”警察,后者有时还穿着防弹背心。这些警察就站立在球迷和
如果说球迷和警员之间存在一种博弈关系的话,那么细微之处就抓紧,
可能是贝雷帽警员在这场博弈中奉行的优势策略。可以预料,对于我们看到
的那两个男孩的处理一定是非常轻微的,属于警戒性质,最大的“处罚”,可
能就是在问话的这段时间他们不能看球。
这次德国世界杯比赛期间,足球流氓闹事的情况非常少,都是因为报纸
喜欢登载球迷闹事的新闻,所以容易给远离德国的读者一些错觉。这可能就
是警力配备足够,有点苗头就抓紧处理和化解的结果。
出动强大警力,务必对违规行为形成事前威慑,应该是德国警方的优势
策略。我们把它叫做威慑策略。相反,值班警力勉强,出了事情才倾巢支援,
恐怕是他们的劣势策略。我们把它叫做救火策略。有兴趣的读者不妨进一步
想象足球流氓的两种策略,并且斟酌四种策略组合之下双方之得失,通过标
准的博弈分析,把2006世界杯比赛期间德国警方的威慑策略确实是优势策略
第五章
零和博弈与霍特林模型
这一章我们首先正式引入“零和博弈”,然后重点讨论经济学的霍特林模型。
霍特林模型属于零和博弈,但是它和我们迄今讨论过的所有博弈都有很大的
不同。在霍特林模型上展示的纳什均衡,几何形象非常鲜明。对于霍特林模型的
讨论,还部分涉及了2006年秋天我在浙江大学给本科生讲博弈论基础的愉快经历。
零和博弈与非零和博弈
类似上一章开头讨论的扑克牌对色游戏这样的博弈,叫做
零和二人博弈
(zero-sum two-person games)。因为参加博弈的只有两方,即两个局中人,所
以叫二人博弈。现在,我们把扑克牌对色游戏博弈的两个参与人叫做“你”
和“我”。两个公司、两个国家、两个集团的博弈,也叫二人博弈。又因为每
一个策略对局之下博弈双方的总支付即双方得失之和总是0,所以叫零和博
弈。在扑克牌对色游戏中,每一对局之下博弈的结果不外乎你输一根火柴我
赢一根火柴或者你赢一根火柴我输一根火柴,每一对局之下你的支付与我的
支付的总和总是保持为0,所以是零和博弈。
我
红黑
红
你
黑
–11
1–1
1–1
–11
你我的扑克牌对色游戏
如果博弈参与人不是两个,而是多个,那么只要每局博弈这些参与人的
支付之和总是0,就叫做多人零和博弈。
世界上许多国家的孩子们都会玩 “布剪锤猜拳游戏”。如果两个孩子玩
布剪锤猜拳游戏,布赢锤,锤赢剪,剪赢布,布布打平,锤锤打平,剪剪也
打平。当发生输赢的时候,一定数量的“财富”,比如约定为1吧,从输家流
向赢家,当打平的时候,双方之间并不发生“财富”的转移。有兴趣的读者,
| 第五章 零和博弈与霍特林模型 | 175 |
可以自己把这个布剪锤猜拳游戏的博弈矩阵写下来。这将是一个3行3列的表
格,左方参与人的三个策略分别是布、剪、锤,上方参与人的三个策略也是布、
剪、锤。支付表格的每个格子里面,左方参与人的支付的负数,就是上方参
与人的支付。左方参与人的支付为1,上方参与人的支付就是–1;左方参与
人的支付是–1,上方参与人的支付就是1。总之,每个格子里面两个支付之和,
总是0。这个布剪锤猜拳游戏博弈,当然也是二人零和博弈。
扑克牌对色游戏的博弈矩阵,有4个格子,每个格子里面的两个数字,都
是1和–1。但是布剪锤游戏的博弈矩阵,有3乘3等于9个格子,其中6个格
子里面的两个数字,也是1和–1,不过对角线上3个格子当中的两个数字,却
是0和0。你可以检查一下自己做出来的博弈矩阵,是不是这个样子。
还有一些二人博弈,每局双方得失之和虽然不是0,却是一个常数。例如
双方每进行一局博弈除了他们之间的输赢支付外,还要向提供游戏器具或者
场所的第三方交纳一定的租金,则每局双方得失之和就是一个负的常数。或
者反过来,每进行一局博弈,除了他们之间的输赢支付外,双方还可以得到
“出场费”那样来自第三方的一定数量的奖励,则每局双方得失之和就是一个
正的常数。许多体育比赛就是这个样子。这些博弈都称为“常和”二人博弈,
或者二人“常和”博弈。推而广之,如果一个多人博弈每局各方得失之和是
一个固定的常数,这个博弈就叫做多人常和博弈。
在零和博弈中,任何参与人的每一分钱所得,都是其他参与人之所失。
所以,零和博弈是利益对抗程度最高的博弈。其实,常和博弈也是这样,同
样任何参与人的每一分钱所得,都是其他参与人之所失。由于这个原因,也
由于在理性假设之下,常和博弈与零和博弈在处理上没有质的差别,所以博
弈论一般约定不把常和博弈纳入非零和博弈的范畴。本书沿用这样的约定,
| 176 | 博弈论平话 |
即如果不作另外的声明,所说的非零和博弈,专指博弈矩阵各个格子当中的
支付之和并不总是相等的所谓“变和博弈”,而不包括非零和的常和博弈。
在非零和博弈中,一个局中人的所得并不一定意味着他的对手要遭受损
失,更不一定意味着他的对手要遭受同样数量的损失。总之,不同局中人的
支付之间并不存在“你之得即我之失”这样一种简单的关系。这里隐含的一
个意思是,局中人彼此之间可能存在某种共同的利益,蕴涵博弈参与人“双
赢”或“多赢”这一博弈论非常重要的理念。
例如,下图所示的大家都已经非常熟悉的囚徒困境博弈,就是一个非零
和博弈。在这个博弈中,如果双方彼此合作,都选择抵赖,则可以实现博弈
参与人甲和乙双赢的局面,每人只判入狱1年。在其他对局情形下,双方总
的得益为入狱5年或6年,都比彼此合作选择抵赖时的入狱2年差。
乙
坦白抵赖
坦白
甲
抵赖
0–1
–5–1
–3–5
–30
囚徒困境博弈
需要指出的是,虽然双方都选择抵赖就能实现两个参与人双赢的结局,
但如果给定对方选择抵赖,则我方最好的选择是坦白。因此,如果没有一种
约束机制,双方是不可能有激励维持这种双赢局面的。
回到我们的扑克牌对色游戏。如果单独把你作为行局中人的博弈支付写
出来,那就得到下图“你”的支付矩阵。这个矩阵的意义是清楚的。例如右
| 第五章 零和博弈与霍特林模型 | 177 |
上方格子中的 –1表示,如果你翻红而我翻黑,你的得益就为 –1,即你输一
根火柴给我。值得注意的是,上图的矩阵是我们一直在用的“双矩阵”,每个
格子里面有行参与人的支付和列参与人的支付这样两个数字,而下图的矩阵,
本质上是我们从代数中早已熟悉的矩阵,每个位置一个数,只不过代数中一
般用两条弧线或者方括号那样的两条竖线括住,现在则从双矩阵的习惯写法
继承下来,使用表格。
我
红黑
你
红
黑
1–1
–11
扑克牌对色游戏“你”的支付矩阵
把“你”的支付矩阵的所有元素改变符号,变成:
我
红黑
你
红
黑
–11
1–1
扑克牌对色游戏“我”的支付矩阵
就得到“我”的支付矩阵。这是因为对于二人零和博弈来说,行参与人之所得,
就是列参与人之所失;行参与人之所失,就是列参与人之所得。
由于这种相互为负数的关系,我们在研究这个二人零和博弈的时候,只要
盯着“你”一个人的支付矩阵或者“我”一个人的支付矩阵就够了。讨论二人
零和博弈的时候,通常只使用一个局中人的支付矩阵,就是这个道理。这种标
准形式的矩阵,反过来可以叫做单矩阵,以与博弈论常用的双矩阵区别开来。
| 178 | 博弈论平话 |
均衡的观察与验证
我们已经介绍了如何在一个博弈中寻找纳什均衡的几种方法,然而在许
多情况下,人们往往无须通过上面介绍过的劣势策略消去法、相对优势策略
下划线法这样的方法,找出纳什均衡。许多时候,纳什均衡是“看”出来甚
至“猜”出来而不是“算”出来的。有道是“大胆假设,小心求证”。科学研
究讲求想象力,许多重大的科学发现,往往都是科学家先产生一个直觉判断,
然后再通过严密的逻辑论证或者实验方法来论证直觉判断的正确性。这个直
觉判断可以说就是猜,至少在证明或者证实以前是这样。经济学研究更是如
此。经济学家一般先从现实中的经济现象出发,利用经济学直觉分析归纳出
可能的经济学命题,然后再通过经济分析的方法论证命题。现在就让我们通
过下面两个例子,体会一下经济学家风格的“大胆假设,小心论证”的思考
方式。头一个例子是零和博弈,第二个例子是变和博弈。
假设两个人分100块钱,每个人独立地提出自己要求的数额,并把要求
写在一张纸上,然后由公正的第三方来主持和判定最终的分配结果。规则
是这样的:设为第一个人要求的数额,为第二个人要求的数额,如果
xx
12
x
12
+
x
G
100,则每个人得到自己要求的数额;否则,两人一分钱都得不到。
如果让读者来猜测这个博弈的纳什均衡结果,大多数人会认为(50,50)
是一个合理的均衡结果。(50,50)的确构成一个纳什均衡,读者的判断是正
确的,而读者的正确推断则源于生活经验和逻辑直觉。因此,生活经验和逻
辑直觉往往能帮助我们解决许多问题。现在,读者的文化背景让你们设想参
与人的选择会收敛到(50,50)这个纳什均衡。
在猜出纳什均衡之后,我们所面临的下一个任务就是论证。现在我们要
| 第五章 零和博弈与霍特林模型 | 179 |
论证(50,50)是上述二人博弈的一个纳什均衡。我们前面已经强调过,纳
什均衡的精髓,是没有一个局中人有动机单独偏离当前的策略选择。我们首
先看局中人1的行为选择,给定局中人2选择50,如果局中人1的选择不是
50,那他要么选择一个大于50的数额,结果自己一分钱都得不到,要么选择
一个小于50的数额,结果所得比原来可得的50少。因此,站在局中人1的角
度考虑,他没有动机偏离50这个当前的选择。同样,局中人2也没有积极性
偏离当前50的选择。所以,(50,50)构成一个纳什均衡。
但是,如果我们视野开阔多想一想,很容易就会发现,任何满足
x
1212
+=100的分配数额(
xx
,)都构成这个二人博弈的纳什均衡,因此,这
x
个博弈存在无数个纳什均衡,我们把这个判断的论证,作为练习留给有兴趣
的读者自行完成。
再看下面这个有趣的例子。考虑如下这样一个有个人参加的游戏:每
N
个人可任意放最多100块钱到一部可以生钱的机器里,机器把所有人放进去
的钱的总和增加到原来的3倍,然后再平分给这个人。
N
你能猜出这个人博弈的一个纳什均衡并给出相应的证明吗?
N
聪明的读者容易猜到这样一些纳什均衡:当=1和2时,每个人都愿意出
N
100块钱是博弈的纳什均衡;当4时,没有人愿意出钱是博弈的纳什均衡。
N
H
因为生活的直觉告诉我们,当参与分钱的人数大于钱增加的倍数时,对于任
何一个参与人,自己出钱是件亏本的事情,只有当参与分钱的人数小于钱增
加的倍数时,自己出钱才是划算的。
验证纳什均衡时我们需要牢记的,还是“单独偏离没有好处”这句话。
显然,当=1时,如果该局中人不是出100块而是出99块,那么他将得益
N
99×3–99=198,小于他出100块钱的得益100×3–100=200。类似地可以验证,
| 180 | 博弈论平话 |
只要他拿出的钱小于100块,他的最终得益即支付都小于拿出100块钱时得到
的支付,所以他没有动机偏离“出100块钱”这一策略选择。同样,当=2时,
N
如果其中一个局中人不是出100块钱而是出99块钱,那么给定另一个局中人
出100块,他的得益将是(100+99)×3÷2–99=199.5,小于他出100块钱时
的得益。
比较困难的是验证4的情形。事实上,当=4时,给定其他局中人
NN
H
都不拿出钱来参与游戏,如果其中一个局中人拿出1块钱,则他的所得为
(1×3)÷4 – 1= –1/4<0,虽然其他局中人的所得是3/4。理性的局中人不
会做这种损害自己的事。同样的道理可以验证,没有局中人愿意拿出2块、3
块……直到100块,因为此时该局中人的所得都是负的。
学过初等代数的读者都容易验证,只要参与游戏的人数大于4,给定其他
局中人都采取不出钱的策略,如果其中一个局中人采取出钱的策略,出钱的
局中人就必然得到负的支付,也就是说要亏钱。因此,当4时,没有局中
N
H
人愿意出钱就构成该博弈的纳什均衡。
从前面的讨论我们知道,当=1和2时,纳什均衡是每人都出100元;当
N
NN
H
4时,纳什均衡是大家都不出钱。事实上,当=1和2时,任何人出钱,对
于自己都是得利的事情;当4时,任何人出钱,对于自己都是吃亏的事情。
N
H
有趣的是=3的情况。这时候,如果一位参与人向机器出比如说9元钱,
N
那么机器返还给他的还是9元钱,于是他选择出9元钱的策略自己得到的支付
为9–9=0;如果出100元钱,那么机器返还给他的还是100元钱,从而他选择
出100元钱的策略得到的支付为100–100=0,同样是0。可见,这时候任何人
出钱给机器,对于自己都是不亏不赚的行为,从而出钱给机器是没有经济利
益的行为。
| 第五章 零和博弈与霍特林模型 | 181 |
如果我们把上面这个事实理解为任何参与人增加或者减少给机器的钱,
对于自己都是不亏不赚的行为,那么我们就知道,这3个人随便每人选择给
机器多少钱,都是这个博弈的纳什均衡,包括每人都不给钱和每人都给100
元钱这两个极端情形。
每人都出100元钱这个纳什均衡特别值得注意。这个纳什均衡具有最大
的帕累托优势。虽然每个人单独出多出少都无所谓,但是如果他们一起都出
最多的100元,他们每人都将得到300元的支付。在这种情况下,每个人单独
来看都是出多出少无所谓,十分需要有人引导或者协调他们,让他们都出100
元,兑现老天爷准备给他们的恩赐。
经济学研究重视对经济现象的直觉,直觉往往与观察力和想象力联系在
一块。
| 182 | 博弈论平话 |
纳什均衡与杂货铺定位
纳什均衡是博弈论头一个重量级的概念,它主要描述博弈各方的这样一
种对局形势:任何一方单独偏离目前的位置,即单独改变策略,都不会得到
进一步的好处。所以,纳什均衡的对局,是博弈各方市场力量相互作用的稳
定的结局。
为了进一步说明纳什均衡的意义,让我们看一个杂货铺定位博弈的例子。
设想有一个小居民点,居民住宅沿着一条公路均匀地排开。珠江三角洲
在都市化过程的前期,就出现过这种沿公路修房子的现象。这种做法与都市
居民社区建设的现代理念相去甚远,理应受到批评,但是一方面历史上这样
的现象不少,另一方面即使是现在,在一些比较偏僻的小地方,居民住宅沿
道路排列,还算正常,至少可以说还比较自然。
回到我们即将讨论的问题。现在设想有两家杂货铺要在这个居民住宅沿
着公路均匀地排开的小居民点开张,它们卖一样的东西,服务一样,价格也
完全一样。那么,两家杂货店开在什么地方好呢。情况就如下面的图,我们
假设居民点的长度为1。
现在,因为商品一样,包括服务一样,而且价格也一样,居民到哪个杂
货铺买东西,就看哪个杂货铺离自己比较近。反正东西、价格都一样,何必
也许你马上会说,如上图那样,把这条路从0到1四等分,杂货铺A设在
1/4的位置,杂货铺B设在3/4的位置,不就解决了吗?的确,这是一种很好
的配置。按照这种配置,每个杂货铺的“势力范围”即市场份额都是1/2。
可是,如果两家杂货铺只以自己赢利为目的,是不会安于这样的位置的。
道理是这样:如果A向右移动一点儿到达A’的位置,那么A的地盘,就扩
张到A’和B的中点(下面图中较长的竖直虚线的位置),A的地盘就比会比
B的地盘大。所以,原来位于左边的杂货铺A,有向右边移动来扩大自己的势
力范围的激励。在杂货铺定位的博弈中,地盘就是市场份额,地盘就是经济
利益。同样,原来位于右边的杂货铺B,也有向左边移动以扩大自己地盘的
激励。可见,原来A在1/4处B在3/4处的位置,不是稳定的位置,不是稳定
的对局。
A A’B
01/41/23/41
杂货铺定位的挤压动机
那么,怎样的位置才是稳定的位置呢?在两个杂货铺定位的市场份额竞
争博弈中,位于左边的要向右靠,位于右边的要向左挤,最后的结局,必须
是两家杂货铺剑拔弩张地紧挨在一起。
A A’
B
01/41/23/41
不在中点不稳定
| 184 | 博弈论平话 |
值得注意的是,如果两家杂货铺已经紧挨在一起了,但是位置不在线形
居民点的中点,那么这仍然是一种不稳定的对局。请看上图,A、B已经紧挨
在一起了,不过不是在中点。这时候,只要一家杂货铺(例如A)稍稍往中
点的位置移动一点(例如到达图中A’的位置),那么它马上获得超过一半的
市场份额。所以在这种情况下,每家杂货铺都有单独偏离向中点位置的激励。
综上所述,即使两家杂货铺已经紧挨在一起了,但是挨在一起的地方不是线
形居民点的中点,也不是两个杂货铺定位的市场份额竞争博弈的纳什均衡。
A B
01/41/23/41
线形居民点杂货铺定位的纳什均衡
最后的结局,是像上图那样,两家杂货铺在位于中点1/2的位置紧挨着开。
在这个纳什均衡的对局,每个杂货铺的“势力范围”,都是线形居民点的一半。
为了进一步说明上图的位置是纳什均衡的位置,请读者注意,在这个位
置,谁要是像下图那样单独移开“一点”(比方说下图的A,从中点移动到A’),
它就会丧失“半点”市场份额(丧失下图从中点到竖直虚线那么大的市场份
额)。所以在上面这种对局之下,谁都不想偏离中点的位置。
A A’
B
01/41/23/41
偏离均衡要吃亏
| 第五章 零和博弈与霍特林模型 | 185 |
读者可能觉得,实际生活中的情况似乎不是这样。实际生活中的情况的
确多半不是这样,但是那一定有其他因素在起作用。比方说中点位置的房租
特别贵,又比方说在什么地方正好有一家铺子空出来,可以比较便宜地迁进
去,还可能是因为其中一家要开的杂货铺原来就是这个线形居民点的住家,
他现在就用自己的住宅开铺,并不能随心所欲,等等。再一种可能是两家杂
货铺都尊重一个协调机构,这个社区协调机构从方便居民购物的角度考虑,
希望两家杂货铺互相礼让,分别在1/4和3/4的位置开张。更有一种可能,就
是两家杂货铺实际上是同一个企业的两家分店,那么它们当然选在1/4和3/4
的位置。
上面这样推论“只有两家杂货铺紧挨着在中点开张”才是稳定的纳什均
衡结局,前提是每家杂货铺都是只关心自己眼前商业利益的“理性人”假设。
在这种假设之下,理性人的特征就是“唯利是图”。既然唯利是图,就要千方
百计挤占对方的地盘,最终造成两家剑拔弩张挤在中点的结局。现在我们一
些管理不好的摊贩市场就是这样,下班以后,摊贩都要往好地方挤,谁也不
肯礼让。如果上面讲的杂货铺注意树立亲民形象,不希望居民认为我们唯利
是图,那么设在1/4和3/4的位置是有道理的。但是遇上对方进逼,就难免吃
西方两党政治的稳定性和欺骗性
上一节演示纳什均衡概念的杂货铺定位问题,最早是由美国经济学家
霍
特林
(Harold Hotelling)提出来的,所以叫做霍特林模型。当然,在霍特林
提出他的杂货铺定位的市场份额竞争的模型的时候,他也和别人一样,都还
不知道纳什均衡的概念。上一节那样的讨论,是博弈论学者在霍特林模型论
证方式方面改造的结果。
有趣的是,美国经济学家和政治学家,还运用上述杂货铺定位博弈的霍
特林模型,说明西方两党政治的若干现象。
西方一些大国,都有相似的两党政治。在英国是保守党和工党轮流执政,
在美国则是共和党和民主党轮流坐庄。民主党和工党倾向于标榜代表劳工阶
层的利益,共和党和保守党则站在企业主一边。在竞选的时候,人们可以发
现,两党互相攻击越来越厉害,紧要关头,人身攻击都上来了,可是实际政
治纲领,却越来越靠近。等到一个政党因为攻击另一个政党得手取代对手上
台以后,选民又发现,新政府比较老政府并没有多少实质的改变。
为什么会这样呢?进一步,为什么这些西方大国都会出现两党政治呢?
首先,让我们用杂货铺定位博弈模型来说明在西方式民主制度下两党政
治的稳定性。
治诉求排列成一条直线,那么接近不接近,就看距离近不近。如果与政党A
距离比较近的选民多,政党A就获胜上台执政。如果两个政党处于同一位置,
他们就平分共同地盘里面的选民。那么,这些政党和它们的政治家怎样争取
选民呢?
AB
01/21
西方两党政治的博弈分析
情况实际上就和杂货铺定位博弈的霍特林模型一样。工党一定要打出劳
工代言人的旗帜,所以它是站在左边的,左边是它的地盘。但是只有左边一
半的选民,还不足以保证胜出。为了在竞选中获胜,它要想办法把中间的在
两党之间摇摆的选民争取过来。最好的办法,就是使自己的竞选纲领向右的
方向靠过去一点,就是在竞选中宣布也要照顾中产阶级的利益,甚至兼顾企
业主发财的机会。移过去一点,地盘就可能大一点。同样,原来立党之本是
是单独跳开一点点,谁就会取胜,所以也是不稳定的局面,不是纳什均衡。
这是因为比方说A从中点跳开一点儿走到稍许右面一点的位置A’ 的时候,
至少竖直虚线右面的选民都会投他的票,而竖直虚线左边的选民,则由留
在中点的两个政党A和B来平分,这两个党各自的得票,就都比不上跳开
的那个党。
A A’
B
C
01/21
三家都在中点不是纳什均衡
如果三个政党A、B、C位于同一点,但是这一点不是中点,比如说就像
下图那样吧,A、B、C三党位于中点左边的同一点,那么谁单独向中点稍微
移动一点点,它就会占便宜。设想A从原来位置移动到中点变成A’,那么至
少竖直虚线右边的选民都会投它的票,这可是大于一半的份额,而另外两个
政党则只能平分不到总数一半的选民。
A A’
B
C
01/21
三家都挤在不是中点的地方更不是纳什均衡
三个党不在一起不稳定,三个党全在中点也不稳定,三个党全在别的另
外一点更不稳定,总起来一句话,就是三党政治不会稳定。或者换一个角度
理解:纲领变化无常的政党不会有较强的生命力。这也可以部分说明为什么
| 第五章 零和博弈与霍特林模型 | 189 |
英美都是两党政治,第三党难成气候。
我们这里不是常常说“西方两党政治的欺骗性”吗?上面这个政党纲领
向中点移动的机制,倒真是提供了颇有说服力的思路。竞选的时候,怎样有
利于拉票就怎样讲,当选以后,可以忘得一干二净。在这个意义上,我们说
动机和实现不是一回事
假如有一个很特别的“山水城市”,居民住宅沿着从西到东一条很长的街
道均匀地排开,道路和住宅以外,都是不宜行走的陡坡、水面和农田。如果
要在这个城市开设一家超级市场,这家超级市场开设在这条长路中间的位置
最好,因为这样可以从总体上节省顾客走在路上的时间,离商店最远的顾客,
距离商店只有长路一半的路程。
但是如果相互竞争的两家公司A和B都想在这个城市开设超级市场,它
们会怎样选址呢?前面我们说过,着眼于总体上节省顾客走路的时间,最理
想的方案,是两家超级市场分别开设在道路1/4和3/4的地方。这样,离商店
最远的顾客,距离商店只有长路1/4的路程。如果开设在1/3和2/3这两个地方,
合理性就差一些,因为离商店最远的顾客,距离商店有长路1/3的路程。
除了自身的功能以外,建筑还是强加于环境的实体存在,会给周边带来
很大影响。好的影响固然有,比如相当漂亮可充当摄影背景等。但是如果不
讲究整体规划,负面影响更加容易产生:阻挡视野和采光,改变大气的流动,
阻滞公共交通,反射或聚集过多的阳光加剧热岛效应,破坏城市的风景线,
亵渎城市的人文景观等,不一而足。无规矩不成方圆,所以,在任何法治的
现代社会,建筑总是要报批的。
设想规划部门把两家企业的代表请来,作为建议,提出规划部门心目中
最佳的1/4和3/4的方案,供企业考虑。总部在城市西边的A公司,自然倾向
于离总部比较近的1/4的位置,同样,总部在城市东边的B公司则倾向于3/4
的位置。
虽然在规划部门建议的位置1/4和3/4之中,两家企业心目中各有所属,
| 第五章 零和博弈与霍特林模型 | 191 |
但是它们并不满足。A公司提出,1/4那个位置正好是道路瓶颈的地方,它希
望往东移动一些。B公司提出,3/4那个位置有九寨沟那样的风景,不宜大兴
土木,它希望可以往西移动。
规划部门的官员听它们这样说,觉得颇有道理,的确不宜选址在正好1/4
和3/4这两个地方。可是他知道长路当中从1/4到3/4这一段,即将兴建新的剧
院和公共图书馆,遂建议两个公司考虑是否不向中间移动,而是向两端移动。
未料两个公司全都反对。A公司说,要是西移,不如维持规划局原来建
议的1/4的位置,什么瓶颈不瓶颈,管不了这许多了。同样,B公司也表示,
东移不能考虑,不许西移就维持在3/4那个位置,风景异化也就抛诸脑后。
这不行那不行,又讨论了几种方案还是未能达成一致。在这种方案那种
方案的探讨之中,规划局的官员悟出了一条规律:凡是建议超级市场选址向
长路的两端移动的,企业都会找各种理由反对;而企业自己提出的方案,总
是想把超级市场的位置往中间移动。
的确,这是规律性的行为,背后有我们在上面讲过的经济学道理,那就
是霍特林模型。
原来,企业为超级市场选址的时候,是否有利于争取顾客,是重要的考
虑。超级市场当然首先在商品的品种、质量、价格以及销售和售后服务方面
竞争,但是如何选址也很要紧。不是说天时地利人和吗?如果多数居民距离
超级市场A比较近而距离超级市场B比较远,企业A就会在竞争中占据地利
的优势。正是这种考虑,促使两家公司都想把它们的超级市场往中间挤。
好在企业选址不能为所欲为,规划局的最后裁决避免了两家超级市场紧
挨在一起的结局。我们这个“山水城市”自然是虚拟的,不过也并非异想天开。
湘西沈从文、黄永玉他们的故乡凤凰城,可充近现代的原型。
| 192 | 博弈论平话 |
摊贩为什么都往市场门口挤?
(《21世纪经济报道》2001年5月28日,教授在《博弈理论的争议》
张五常
第21页)中,认为霍特林的结论有问题。张五常教授的文章专为关于他整体
批评博弈论所引起的争议而写,不可等闲视之。
张教授这样描述霍特林模型:“一条很长的路,住宅在两旁平均分
布。……要是开两家(超市),为了节省顾客的交通费用,理应一家开在路一
方的1/3处,另一家开在另一方的1/3处。但是为了抢生意,一家往中移,另
一家也往中移,结果是两家都开在长路的中间,增加了顾客的交通费用。”
这里,1/3应该是1/4的笔误。道理在前面两节的分析中已经清楚。
张教授接着写道:“这个两家在长路中间的结论有问题姑且不谈,但若是
有三家,同样推理,它们会转来转去,转个不停,搬呀搬的,生意不做也罢。
这是博弈游戏了。但我们就是没有见过永远不停地搬迁的行为。”
张教授概括的推理,至为精确。三家相互竞争的独立企业都要在一个东
西方向“长路城市”开设超级市场,假定有人先抛出一个方案,三家选址不
在同一位置。这样,总有一家单独在最西边或者在最东边。如果单独一家在
最西边,它就有往东挤的动机,因为移动以后,原来离它比较近的居民仍然
离它比较近,它东边有一些原来在别人“势力范围”内的居民,现在则变得
离它比较近。正如上次说明的,移动“一点”,自己的“势力范围”就要扩
大“半点”。利益驱动,何乐而不为?同样,如果单独一家位于最东边,它
也有往西挤的动机。可见,三家不在同一位置的方案,从经济动机来看没法
子稳定。
假定鬼使神差先抛出的方案是三家选址都在一起,那么因为顾客到三家
| 第五章 零和博弈与霍特林模型 | 193 |
超级市场的距离都一样,三家超级市场理应平分所有居民。这时候如果这个
位置东边的路不比西边短、居民不比西边少,那么每家都有单独向东边偏移
一点点的动机,道理是单独偏移一点点以后,东边的居民都在它的“势力范
围”内,而西边的居民将由另外两家超级市场平分,每家所得顶多只及偏移
的那家的一半左右。同样,如果这个位置西边的居民不比东边少,那么每家
都有单独向西边偏移一点点的动机。可见,三家一起的方案从经济动机来看
也不稳定。
两种情况合起来,我们就知道三家为选址竞争,它们会转来转去转个不
停:只要三家不在一起,单独在最旁边的一家就要往中间挤;一旦挤到一块
去,马上又有动机要偏离出来。就这样转个不停。
由于摩擦,我们看到过的小球平面滚动都要停下,但这并不能推翻惯性
定律。由于搬迁费用和规划管理等的约束,我们没有见过“不停地搬迁的行
为”,但这并不等于选址时不存在挤压对手的动机。
记得霍特林模型的副题是杂货铺选址。杂货铺是比较难以移动的,更何
况超市。但是学习霍特林模型,笔者却实际观察到了往中间挤压和转个不停
的行为。
十多年以前,广州市肉菜市场的管理还比较差。中山大学对门的市场,
每天都准确无误地上演着同样的故事:傍晚市场管理人员一下班,原来有固
学校门口等出租车的争先行为
早上上班的高峰时刻,在中山大学校门口等出租车出外办事,有时候会
非常困难。这时候你可以观察到,焦急地等待出租车的乘客,会争相向“上游”
方向走去。甲超过了乙,乙又要超过甲,在叫到出租车以前,他们实实在在
会这样你超我我超你地“转个不停”。
他们这样“转来转去”,道理也是说明抢占有利位置的动机和行为的霍特
林模型。
按照博弈论的框架,杂货铺或者超级市场选址的竞争,摊贩挤占有利位
置的竞争,等候出租车时抢占有利位置的竞争,都属于博弈行为。前面说过,
三家相争,结果是任何选址方案都不稳定,正如张五常教授所说,“它们
会转来转去,转个不停”。之所以实际上并没有转个不停,是因为制度约束和
移动成本等其他因素阻滞了动机的实施。
张五常教授非常强调经济行为和经济现象的“局限条件”。借用张教授的
术语,那么在管理欠佳的肉菜市场,管理人员下班以后卖鱼卖肉的不会像卖
蔬果的那样挪动位置,不等于他们没有抢占位置的动机,而是因为肉档挪动
的“成本”太高这个“局限条件”限制了他们,使他们不容易移动,甚至使
他们不能够移动。
所以我们体会,前面谈到的这些约束因素,属于张教授的“局限条件”。
本节开头谈到的等待出租车时的争先占据有利位置的博弈,原理和杂货铺选址
博弈完全一样,但是因为没有制度约束,也基本上没有成本约束(人的移动成
本非常轻微),所以我们可以切实观察到你超我越这样不停地反超的行为。
这样不停地超来超去,与社会祥和不大和谐,而且造成效率损失,所以
大宾馆门外会设置“出租车等候处”的牌子,引导客人排队轮候,勿相竞争。
这时候,在设定的出租车轮候处等候出租车的文化制度设置,作为“局限条
件”,约束着人们私利争先的动机。
足球比赛在开出角球以前,双方球员在门前的推搡,是制度允许代价也
限条件”而不能“转来转去,转个不停”,不等于他们没有“转来转去”占据
有利位置的动机。
我想,可能正是因为考虑到不容易说服一些想象力不那么丰富的学生,
现在美国的经济学教科书,都不再以霍特林原来的“杂货铺定位”问题来展
开霍特林模型,而是以“雪糕车抢生意”作为模型的背景,因为雪糕车要移
动非常容易,几乎没有什么“局限条件”。
多人博弈的霍特林模型
我们已经知道,二人博弈的霍特林模型,有唯一的纳什均衡解,那就是
两家都挤在1/2即中点的地方;三人博弈的霍特林模型,则没有纳什均衡解。
那么,四人以上的多人博弈的霍特林模型又怎样呢?下面是2006年秋季学期
我在浙江大学给本科生开设“博弈论基础”课程时一位同学的作业。她做得
非常好。
设想在一个一字形排开的旅游地,游客沿着“一字”均匀分布,这里有
NN
台冷饮售卖机在兜揽生意。假设,这台冷饮售卖机卖一样的冷饮,价格也
完全一样,但是相互竞争。因为商品一样,价格也一样,游客到哪个冷饮售
卖机买冷饮,就看哪台冷饮售卖机离自己比较近。所以,每台冷饮售卖机都
希望靠自己比较近的游客多一些,从而生意会好一些。问题是,它们各自设
在什么地方好呢?
解:为讨论方便,设这个一字形排开的旅游地的长度为1。
根据题意,一台冷饮售卖机占有离自己最近的市场。
(1)当=2即有两台冷饮售卖机时,它们如下图(上)挤在一字形旅游
N
地的中点,是这个双方竞争市场份额的博弈的纳什均衡。事实上在这一点,
两台的市场份额都是1/2,如下图(上)所示。如果其中一台左移,如
下图(下)虚线菱形所示,它所占有的市场份额,将如下图(下)的
所示,少于1/2。右移也是这样,同样没有好处。可见,两台都不愿意单独从
| 第五章 零和博弈与霍特林模型 | 199 |
均衡位置移动出去。
(2)当=3时,如果三台不在一起,一定有一台单独处于最左边或最右
N
边,首先设它单独在左边。在这种情况下,原来单独在左边的一台的市场
份额如下图(上)的。如果它向右移动,市场份额变为下图(下)的
,大了,可见它有动机往右挤。同样,如果它单独在右边,它有动机
往左挤。所以,只要三台不在一起,一定不是博弈的纳什均衡。这里注意,
图中另外两个点是不是在一起并不重要,是不是在中点更加不重要。
当三台都在一起时,三台的市场份额都为1/3。此时如果如下图(上),
三台在中点的左边,那么要是有一台向右移一点点,则这一台的市场份额变
为下图(下)所示,大于原来的1/3,所以这家有激励要单独往右移。
同理,如果三台在中点的右边也一样,三台都有单独向左移动一点点的激励。
当三台都在一起并且三家都在中点时,那么其中的任何一台单独往左移
动一点点,它的市场份额就变为下图(下)所示,大于原来的1/3,所
| 200 | 博弈论平话 |
有它有向左或者向右移动一点点的激励。可见,三台都在中点也不是纳什均
衡。
综上所述,当有三台冷饮售卖机时,这个博弈没有稳定的对局,更没有
纳什均衡。
这个=3情况的论证,也告诉我们,在讨论>4的均衡时,不必考虑任
NN
何有三台在一起的情况。
(3)当=4时,两台两台分别挤在1/4处和3/4处为纳什均衡。此时四台
N
的市场份额都为1/4。
事实上,此时如果有其中一台向外移动,则它的市场份额变为上图(中)
所示,少于原来的1/4。所以没有人愿意单独往外移动。如果有其中
一台往里移,则它的市场份额变为上图(下)所示,还是等于原来的
1/4,并没有增加,所以它没有动机往里面移动。总之这时候不会有任何一台
有激励要单独外移或里移。所以两台两台分别位于1/4点和3/4点处的对局为
这个博弈的纳什均衡。
(4)当=5时,我们可以用中间5个点将一字形旅游地平分为六等分,有
N
两台挤在左面1/5的点上,有两台挤在右面的1/5点上,另外一台位于一字形
旅游地中点时,重要的对局是纳什均衡。
| 第五章 零和博弈与霍特林模型 | 201 |
事实上,这时候如果最外面的四台有一台要偏离我们说明的位置,设它
如虚线菱形往外移动一点,则它的市场份额变为上图(中)的,小于
原来的1/6,所以它不会这样做。当它如上图(下)那样往内移时,市场份额
如所示,仍然为1/6,所以它也没有激励这样做。
另外,中间那台无论往左移动一点还是往右移动一点,市场份额都保持
1/3不变,所以它也没有激励移动。
综上所述,中间5个点将一字形分为六等分,有两台售卖机分别位于外面
的1/5点上,另外一台位于中点,重要的对局是博弈的纳什均衡。
值得指出的是,在这个纳什均衡中,两边的四台的市场份额为1/6,中间
一台的市场份额为1/3。可见,纳什均衡并不要求市场份额相等。
(5)当=6时,我们用5个点将一字形旅游点分为六等分,三对冷饮售卖
N
机分别挤在1/6、3/6、5/6点上,是这个博弈的纳什均衡。此时每台的市场份
额都为1/6。
| 202 | 博弈论平话 |
当最外面的四台中有一台向外移动一点时,它的市场份额将变得小于原
来的1/6。例如上面第二图虚线菱形,它的市场份额变得只有。所以,
最外边的四台都没有激励向外移动。当最外面的四台中有一台向内移动一点
点时,它的市场份额仍然是1/6。例如上面第三图的虚线菱形,它的市场份额
如所示,是1/6。所以,外面的四台都没有激励单独向内移动。最后,
当中家的两台中有一台向左移动一点的时候,它的市场份额不变,还是1/6。
例如上面第四图的虚线菱形,它的市场份额如所示,仍然是1/6。向
右移动也一样。所以中间的两台也没有激励单独移动。
可见,上面第一图的对局,是这个博弈的纳什均衡。
(6)当=7时,我们用7个点将一字形旅游点分为八等分,在1/8、5/8、
N
7/8上分别有两台挤在一起,在3/8上只有一台,这种对局是博弈的纳什均衡,
如下图所示;同样,如果一台位于5/8处,其他三对分别挤在1/8、3/8、7/8的
对局,也是这个博弈的纳什均衡。这时候,配成三对的六台,它们的市场份
额都为1/8,单独的一台的市场份额为1/4。
事实上,当最外边的四台中有一台单独向外移时,它的市场份额将变得
小于1/8。例如下面第一图的虚线菱形,市场份额只剩下,变得小于
1/8。所以,外面四台都没有激励单独向外移动。当四台中任何一台向内移动
一点时,它的市场份额保持1/8不变,就像下面第二图的虚线菱形的市场份额
为一样,仍然为1/8。所以,外面四台都没有激励单独向内移动。
| 第五章 零和博弈与霍特林模型 | 203 |
当中间的一台如上面第三图的虚线菱形所示向左移动一点时,它的市场
份额保持不变,如所示,仍然为1/4。向右移动的情况也是这样。所以,
它也没激励单独向左或向右移动。
同理可证,当中挤在一起的两台也没有激励单独偏离原来的位置。
综上所述,在1/8、5/8、7/8处分别有两台,在3/8上有一台,或者一台
位于5/8处,其他六台每两台分别挤在1/8、3/8、7/8处,都是这个博弈的纳
什均衡。
在上述具体讨论的基础上,我们可以在>3的所有情况下,为这个博弈
N
找出如下纳什均衡。注意,博弈的纳什均衡并不唯一。
(7)当=2–1而为自然数时,我们用2–1个点将一字形旅游点分为2
Nkkkk
13723215
kk
、、……、处各有两台,在处有一台时,等分,在
2k2k2k222k
kk
323
k
就是一个纳什均衡。其实,单独的那一台的位置在到的任意一个分
2k2
k
点都可,但最两端的点必须是两台挤在一起,这些对局都是博弈的纳什均衡。
这时候,两台挤在一起的,市场份额分别为,单独一台的市场份额
为。
2
2k
1
2k
| 204 | 博弈论平话 |
整个论证,与上面所做的一样,留给有兴趣的读者自己练习。
(8)当=2时,我们用2–1个点将一字形旅游点分为2k等分,在、
Nkk
1
2k
352321
kk
、……、处各有两台时的对局,为这个博弈的纳什均衡。
2k2k22
kk
1
这时候,每台的市场份额都是。
2k
分析方法同前,同样留给有兴趣的读者自己练习。
由于我布置给同学们自选的这个作业,只要求找出人博弈时霍特林模
N
型的一个纳什均衡,或者一种纳什均衡、一组纳什均衡,并且给予论证,所
以不同的同学提供了不同的解答。另外一位同学对于霍特林模型的解答是:
和刚才一样,我们假设整个线形旅游点的长度为1,博弈参加者的策略
(即位置)用坐标表示。
当2人博弈时,纳什均衡是(1/2,1/2);
当3人博弈时,纳什均衡不存在;
当4人博弈时,纳什均衡是(1/4,1/4,3/4,3/4);
当5人博弈时,纳什均衡是(1/6,1/6,3/6,5/6,5/6);
当6人博弈时,纳什均衡是(1/6,1/6,3/6,3/6,5/6,5/6);
当7人博弈时,(1/8,1/8,3/8,4/8,5/8,7/8,7/8)是纳什均衡;
当8人博弈时,(1/8,1/8,3/8,3/8,5/8,5/8,7/8,7/8)是纳什均衡。
进一步,当博弈参加者人数为偶数=2n时,其中n不小于2,那么
N
(1/2n,1/2n,3/2n,3/2n,5/2n,5/2n,…,2n–1/2n,2n–1/2n)是纳什均衡;
| 第五章 零和博弈与霍特林模型 | 205 |
当博弈参加者人数为奇数=2n – 1时,其中n不小于2,那么(1/2n,
N
1/2n,3/2n,4/2n,5/2n,6/2n,…,2n–3/2n,2n–1/2n,2n–1/2n)是博
弈的纳什均衡。
对比两位同学的解答,有助于本书读者了解霍特林模型的均衡的多样性。
事实上,多人博弈的霍特林模型的纳什均衡,有两个大系:一个是前面那位
同学做出来的那个大系,这个大系本身还可以容纳一些变化;另外一个大系,
就是后面这位同学提供的解答,这个解答同样有完整的论证,只是为了节省
篇幅,我们不再抄录。有兴趣的读者,正好可以利用本书的这一安排,尝试
像上一节介绍的那位同学那样,自己写出全部论证。
有些同学把霍特林模型博弈每个参与人的支付表达为所有参与人的策略
选择的函数,计算出正确的答案来。这样做也很好,特别是表现出很强的数
学处理能力。只是鉴于代数形式的推导对于读者的数学基础要求比较高,而
本书又偏重和强调几何方法,强调图形解决问题,所以只好割爱,不把他们
的代数方式的解答写进这里。
| 206 | 博弈论平话 |
对抗性排序
零和博弈是对抗性最强的博弈,是“你死我活”的博弈,因为甲的每一
点收益都是乙的损失,同样,乙的每一点收益都是甲的损失,博弈双方,毫
无共同利益可言。
比起零和博弈,囚徒困境博弈就进了一步,虽然在每个局部,利益还是
冲突,博弈双方要陷入困境,但是毕竟已经出现双赢的可能。虽然在理性人
假设之下一次博弈的囚徒困境无法实现双赢,但是如果囚徒困境博弈能够多
我
红黑
–11
红
你
1–1
黑
–11
1–1
“你死我活”的扑克牌对色游戏
百事可乐
低价高价
31
低价
可口可乐
65
高价
15
36
出现双赢可能的价格大战囚徒困境
但是理性假设下双赢可能难以实现
丽娟
足球芭蕾
10
足球
大海
–12
芭蕾
–11
20
个体利益与集体利益基本一致的情侣博弈
但还是需要协调到纳什均衡
上面三种博弈当中,囚徒困境和情侣博弈都有可能协调到双赢的结果。
这就引出(games of coordination)的概念。协调博弈的概念有广义
协调博弈
的和狭义的两种用法。广义的协调博弈,包括所有可能协调出双赢对局的博
弈,即使是囚徒困境那样需要附加条件并且多次重复才能够协调出双赢结果
的博弈,也算在里面。狭义的协调博弈,只指个体利益与集体利益基本一致
的博弈,只指对于博弈参与人来说合作总比不合作好的博弈。本书采取狭义
的概念,只把情侣博弈这样个体利益与集体利益一致的博弈,叫做协调博弈。
现在看张维迎教授的论文中谈到的所谓“胖子过门”博弈:张三李四都
是胖子,要通过一个不宽的门。如果都争先,两人都过不去,各得–1;如果
都退让,同样都过不去,还是各得–1;如果一个先走一个后走,先过去的得2,
后过去的得1。
李四
先走后走
–11
先走
张三
2–1
后走
1–1
–12
胖子过门博弈
胖子过门博弈与情侣博弈有什么不同呢?其中一个不同是,在胖子过门
博弈中,双方选择不同的纯策略,才是共同利益所在。而在情侣博弈中,双
方选择相同的纯策略,是共同利益所在。
再看下面的交通规则博弈:张三李四在没有交通规则的环境下迎面开车,
如果双方都靠右开车或者都靠左开车,那么他们都相安无事,交通顺畅,可
| 第五章 零和博弈与霍特林模型 | 209 |
以各得1;如果一个靠右,对面来的却靠左,麻烦就大了,将各得–1。
李四
靠右靠左
1–1
靠右
张三
–11
靠左
–11
1–1
交通规则博弈
交通规则博弈与情侣博弈以及胖子过门博弈有什么不同呢?最大的不同,
在于交通规则博弈的双赢是彻底的双赢。情侣博弈不是这样,情侣博弈的双
赢,要么男孩子比女孩子更加高兴,要么女孩子比男孩子高兴一些;而胖子
过门博弈的双赢,总是要求一方先走另外一方后走,先走的一方得益更多。
但是对于现在的交通规则博弈,双赢之下没有谁占谁的便宜的事情,这种双
赢真正做到你好我好大家好,是一种对对手好就是对自己好的博弈环境。
你看,我们已经谈到协调博弈里面和谐程度的进一步细分了。
| 210 | 博弈论平话 |
经济学家的对称性偏好
这一节让我们看看胖子过门博弈和交通规则博弈,与我们早已熟悉的情
侣博弈比较,还有什么其他不同,虽然它们都是协调博弈。我告诉你一个很
大的不同:胖子过门博弈和交通规则博弈都是对称的博弈,但是情侣博弈不
是对称的博弈。
不能责怪你没有比我更早发现这一点,因为到现在为止我们还没有讲过
什么叫做对称、什么叫做不对称。事实上,这里说的对称,非常狭义地专指
支付矩阵的对称性。具体来说,如果一个同时博弈参与人的数目是2,而且
可供每个参与人选择的纯策略的数目也是2,那么把这个博弈的田字格支付
矩阵绕着田字格的中心逆时针或者顺时针旋转180度,要是在每个位置“新
来”的支付数字和“旧有”的支付数字完全一样,我们就说这个博弈是对称
的博弈。
现在你看,交通规则博弈支付矩阵绕着田字格中心转180度以后,1还是
1,–1还是–1;胖子过门博弈支付矩阵绕着田字格中心转180度以后,1还是1,
2还是2,–1还是–1。所以,胖子过门博弈和交通规则博弈都是这一节所说的
对称的博弈。
但是情侣博弈的支付矩阵绕着田字格中心转180度以后,虽然1还是1,2
还是2,但是原来的0却变成了–1,原来的–1则变成了0。所以,本书的情侣
博弈,不是这一节所说的对称的博弈。
这里我要告诉大家,一般博弈论著作中的情侣博弈,他们把它叫做性别
之战,都表述成下页图那样的对称的博弈。这样表述,明显有不合理的地方:
如果情侣分开,男孩看自己喜欢的足球,女孩看自己喜欢的芭蕾,各只得0,
| 第五章 零和博弈与霍特林模型 | 211 |
为什么同样情侣分开,但是男孩看自己不喜欢的芭蕾、女孩看自己不喜欢的
足球,却还是各得0呢?
丽娟
足球芭蕾
足球
大海
芭蕾
02
01
10
20
对称化了的情侣博弈
那么不合理的表述,为什么会出现在许多最好的博弈论专家的著作和课
本中?原来,包括博弈论学者在内的许多经济学家,都有一种对称性嗜好或
者说对称性偏好,他们喜欢把自己的经济模型构造成对称的模型。
问题不在于对称就好看。主要的原因是对称的模型通常导致对称的结果。
所以,如果模型是对称的,你做出结果来如果发现它不对称,马上可以怀疑
结果不对,避免在弯路上走得太远,因为那样要付出过高的路径依赖成本。
还有一个好处:如果模型是对称的,在你做出部分结果的时候,往往可以利
用对称性“依样画葫芦”就写出其他部分的结果,不必步步再做。
对称模型的好处如此之多,难怪经济学家在“无伤大雅”的情况下,都
00
10
01
00
博弈对称,纳什均衡却不对称
在说了这些故事以后,我提醒初次接触对称性问题的读者小心,因为你
对于对称性未必已经有准确的把握。上图是一个对称的博弈,非常对称,但
是关于这个博弈的纳什均衡,你是否假设它们应该是对称的呢?如果你真的
这样想,那是有点危险的,因为按照这一节对于对称性的定位,这个博弈的
纳什均衡,至少在几何上看起来,非常不对称。
请你尝试把这个博弈的纳什均衡找出来,加深对于这一节所说的对称性
的理解。
| 第五章 零和博弈与霍特林模型 | 213 |
第六章
动态博弈和子博弈精炼均衡
这一章我们介绍参与人决策有先有后的序贯博弈,这就进入动态博弈的范畴了。
我们首先通过容易理解的“抓钱博弈”,让大家熟悉序贯博弈的树型表达,然
抓钱游戏
假如甲乙两个人参加一个“抓钱游戏”,他们在各自的托盘前面坐定。想
象托盘上面将会长出钞票,设想这是老天爷的恩赐。
一开始,在时刻1:甲面前的托盘上有1元钱,乙面前的托盘上也有1元
钱,甲处于决策的位置。他有两种选择,把钱拿走或者不把钱拿走。如果他
选择把钱拿走,即他把自己面前托盘上的1元钱拿走,游戏结束,这时候乙
也可以把自己面前托盘上的1元钱拿走;如果甲选择不把钱拿走,游戏进入
时刻2。
时刻2:这时候托老天爷的福,甲面前的托盘上变得有2元钱,乙面前
的托盘上也变得有2元钱,但是轮到乙处于决策的位置。他同样有两种选择,
把钱拿走或者不把钱拿走。如果他选择把钱拿走,即他把自己面前托盘上的
2元钱拿走,游戏结束,甲也可以把自己面前托盘上的2元钱拿走;如果他选
择不把钱拿走,游戏进入时刻3。
时刻3:甲面前的托盘上变得有3元钱,乙面前的托盘上也变得有3元钱,
甲再次处于决策的位置。他仍然有两种选择,把钱拿走或者不把钱拿走。如
果他选择把钱拿走,即他把自己面前托盘上的3元钱拿走,乙也可以把自己面
前托盘上的3元钱拿走,游戏结束;如果他选择不把钱拿走,游戏进入时刻4。
时刻4:这时候甲面前的托盘上变得有4元钱,乙面前的托盘上也变得有
4元钱,又轮到乙处于决策的位置。他还是有两种选择,把钱拿走或者不把钱
拿走。如果他选择把钱拿走,即他把自己面前托盘上的4元钱拿走,甲也可
以把自己面前托盘上的4元钱拿走,游戏结束;如果他选择不把钱拿走,老
天爷被他们不为金钱所动的精神感动,决定奖励他们每人5元钱,游戏结束。
| 第六章 动态博弈和子博弈精炼均衡 | 217 |
如果我们把这个游戏看做甲乙二人的博弈,需要注意甲乙二人不是同时
决策的,而是轮流决策。前面几章我们谈的都是同时决策的博弈:盟军和德
军同时决策,疑犯甲和疑犯乙同时决策。现在从抓钱游戏开始,我们讨论博
弈各方决策时间有先有后的博弈。
注意博弈论所谓“同时”,不必是在物理意义上的同时,主要是在信息意
义上的同时。例如,虽然甲的决策时刻比乙晚,但是甲决策的时候并不知道
乙已经作出的决策,那么在博弈论的讨论中,甲乙仍然算是同时决策。这里
的关键在于,乙决策的时候固然不知道甲的决策,因为甲的决策时刻从物理
上说比乙晚,但是甲决策的时候同样不知道乙的决策,尽管乙的决策已经作
出。所以,他们在有关博弈的信息方面,处于同等的位置。
典型的例子是工程招标。假定截标时刻是7月8日中午12点,那么因为
密封投标,如果甲在7月6日投标,乙在7月7日投标,丙在7月8日上午投标,
在博弈论意义上他们都是同时投标。当然,如果丁在7月8日下午甚至7月9
日投标,我们应该不认为丁和甲乙丙同时投标。
前面几章讨论的(simultaneous-move games),是
同时决策博弈静态博弈
(static game);现在说的决策有先有后的博弈,叫做(quential-
序贯决策博弈
move games),是(dynamic game)。这里需要注意,只要参与人的
动态博弈
决策不是同时的决策,就是序贯决策博弈,而不必非得是轮流决策的不可。
例如甲乙丙三人博弈,假定决策按照“甲—乙—丙—甲—乙—甲—丙—乙—
丙”这样的次序进行,也是序贯决策博弈。总之是有先有后。
序贯决策博弈因为决策有先有后,一般不采用前面两节介绍的矩阵表示
方法,而多采用下图那样的“树型”表示方法。想象自左往右从“根”开
| 218 | 博弈论平话 |
始生长的一棵“树”,在生长的过程中不断分枝。根和分枝点是决策节点
(decision nodes),树梢即各枝梢是末端节点(terminal nodes)。博弈的“树
型表示”,就是要在每个决策节点处说明这是谁的决策点,并且说明在这个决
策点供他选择的策略或者行动有多少,是什么,而在每个末端节点,因为博
弈如果“走到”这里,就会结束,所以我们在每个末端节点标示出博弈如果
走到这里每个参与人的得益。在每个树型博弈中,末端节点的括号,按照明
确约定或者默认约定的顺序,给出各参与人的支付。通常的做法,是采取博
弈参与人在博弈中首次出场决策的自然顺序,来排列括号中各参与人的支付。
例如甲乙丙三人参与的决策顺序是“甲—丙—甲—乙—甲—丙—乙—丙”的
序贯决策博弈,如果不另外申明,末端节点那里的括号,就按照(甲的支付,
丙的支付,乙的支付)这样的顺序,给出参与人的博弈得益。
甲乙甲乙
不拿不拿不拿不拿
(5,5)
拿拿拿拿
(1,1)(2,2)(3,3)(4,4)
抓钱博弈
上述抓钱博弈的(game tree),黑圆点是决策节点,黑菱形是
“博弈树”
末端节点。整个博弈按照时间顺序自左往右进行。仔细端详,这是一棵“半
拉子”树,更像是一株“藤”。无论像树也好,还是像藤也好,它符合数学的
分支学科“图论”(graph theory)里面“树”的概念的要求。关于图论,我们
这本书就不谈了。
| 第六章 动态博弈和子博弈精炼均衡 | 219 |
每一博弈树都有一个根(root),并且只有一个根。有时候,像上图那样,
我们用大黑点表示博弈树的根。当然,这只是怎么方便怎么做的约定,假如
约定用空心圆圈表示博弈树的根,也没有什么不可以。更多的时候,树的根
很清楚,也就没有必要特别把它从图形上与其他节点区分开来。
决策节点上写着的甲或者乙,表示当博弈进行到这个决策节点的时候是
轮到甲决策还是乙决策。从一个节点指向另一个节点的“枝”,叫做棱(edge)。
博弈树的棱,都是确定了走向的有向棱(directed edges)。棱的指向与博弈树
生长的方向一致。按照博弈树“生长”即博弈进行的方向,对于除根以外的
每个决策节点,都只有一条棱指向这个节点。博弈树必须不存在两条或者两
条以上的棱按照博弈树生长的方向指向同一个决策节点或者同一个末端节点
的情况,因为如果有两条或者两条以上的棱指向同一个节点,那么我们的树
就出现“打圈”的几何现象,不再成为图论或者博弈论术语所说的树。对于
作为根的决策节点,它只生长出棱来,而没有任何棱指向它。
按照博弈树“生长”的方向,每个决策节点一般至少分出两枝,一枝代
表一种可能的选择。但是,树的生长偶尔也可以只是经过一个决策节点继续
单枝生长,并不分枝,不过这时候因为在这个决策节点并没有选择可言,这
个决策节点实际上已经丧失决策功能。这样的决策节点,叫做退化的决策节
你死我活,还是你好我好
如果读者能够体会上一节的图已经完全表达了上述抓钱游戏,那么你对
序贯博弈的树型表示就有了基本的把握。
树型表示的博弈,简称树型博弈。博弈的“树型表示”的说法,是非正
式的说法,正式的说法是(extensive-form reprentation of
博弈的展开型表示
games)。这样表示的博弈,叫做(games in extensive form)。相应
展开型博弈
的,原来矩阵形式表示的博弈,叫做(games in matrix form)或
矩阵型博弈
者(games in normal form)。
正规型博弈
甲乙甲乙
不拿不拿不拿不拿
(5,5)
拿拿拿拿
(1,1)(2,2)(3,3)(4,4)
利益一致的抓钱博弈
上一节讲的那个抓钱博弈,可以叫做“你好我好”或者“利益一致”的
抓钱博弈,因为随着博弈的进行,双方的得益都在单调上升,所以双方都愿
意等待博弈进行到博弈树的最远端,双方都不会在自己的决策节点选择拿掉
自己面前托盘上的钱而提前结束这个钱在生长的游戏。
现在,我们考虑下面这样“你死我活”的抓钱博弈:
| 第六章 动态博弈和子博弈精炼均衡 | 221 |
甲乙甲乙
不拿不拿不拿不拿
(10,0)
拿拿拿拿
(2,0)(0,4)(6,0)(0,8)
你死我活的抓钱博弈
对于你死我活的抓钱博弈,故事可以这样编排:
在开始时刻1,甲面前的托盘上有2元钱,乙面前的托盘上没有钱,甲处
于决策的位置,他有两种选择:如果他选择把面前的2元钱拿走,游戏就结
束,乙什么也拿不到;如果他选择不把钱拿走,游戏进入时刻2。
到了时刻2,甲面前的托盘上变得没有钱了,但是乙面前的托盘上变得有
4元钱,轮到乙决策,他同样有两种选择:如果他选择把面前的4元钱拿走,
游戏就结束,甲什么也拿不到;如果他选择不把钱拿走,游戏进入时刻3。
在时刻3,甲面前的托盘上变得有6元钱,乙面前的托盘上再次变得没有
钱,甲再次处于决策的位置:如果他选择把钱拿走,游戏结束,他得6元钱,
乙什么也得不到;如果他选择不把钱拿走,游戏进入时刻4。
最后,在时刻4,甲面前的托盘上变得没有钱,乙面前的托盘上却变得有
8元钱,又轮到乙决策:如果他选择把钱拿走,他得8元,甲什么也得不到,
游戏结束;如果他选择不把钱拿走,老天爷责怪乙怎么那么胡涂,决定奖励
甲10元钱,结束游戏,一分钱也不给乙。
读者明白这两个抓钱博弈的树型表示以后,可以自己先行考虑,在两个
不同的抓钱博弈中,甲乙双方博弈的结果将会怎样。我们在后面会讲述具体
| 222 | 博弈论平话 |
的讨论方法。但是在学习这些方法之前自己先行琢磨一下,可以试探和激发
自己的博弈论悟性,保持热爱探索的好奇心,而不只是被书本的介绍牵着走。
这样做,对于开发学术潜质和培育学术思维,非常有益。
值得注意的是,在“你好我好”的抓钱博弈和“你死我活”的抓钱博弈
中,老天爷在相同时刻惠予两位参与人的金钱数额是一样的,都是2、4、6、8、
10这么增加。可是制度安排不同,结果就大相径庭。
| 第六章 动态博弈和子博弈精炼均衡 | 223 |
编排故事,加深理解
上一节说过“你死我活的抓钱博弈,故事可以这样编排”这样一句话。
可能有人会问:严肃的科学普及著作,怎么可以编排故事?
关于“编排”,首先需要说明它不是口误,更不是笔误。读者慢慢可以体
会,对于博弈论讨论,矩阵型博弈中的矩阵表格和支付数据,展开型表示中
的“树”和支付数据,才是实质的东西,而博弈叫做什么名称的博弈,参与
人姓名叫什么、身份是什么、角色是什么,甚至各个策略叫做什么策略,都
不是实质的东西。这就留下编排故事的空间。
关于策略的名称,我们还可以多说几句。由于策略的名称本身不具备实
质的重要性,博弈论经常使用左策略、中策略、右策略这样的说法,叫做左
策略只因为写在左,叫做右策略只因为写在右。例如诺曼底攻防演练博弈中
可供德军选择的策略A、B、C、D,可以叫做左策略、中左策略,中右策略
和右策略。这样叫,对诺曼底战役模拟的博弈分析不会带来任何影响。同样
经常使用的是上策略、中策略、下策略这样的说法,叫做上策略只因为写在
上,叫做下策略只因为写在下,对于这些策略的主体人即可以选择这些策略
的博弈参与人来说,选择他的这个上策略并不一定比选择他的那个下策略更
好。还以诺曼底攻防演练博弈为例,可供盟军选择的a策略、b策略和c策略,
可以叫做上策略、中策略和下策略。这样做,当然不影响整个博弈的分析。
以后我们会谈到对于主体人比较有利的优势策略,相应地会谈到对于主
上面说了有编排的空间。现在说说编排有编排的价值。博弈论的许多理
论和方法都是在游戏中发展起来的。博弈论大师纳什,对于棋牌游戏就十分
迷恋,还曾经发明足以申请专利的游戏。编排博弈故事不但有助于加深对于
具体博弈的理解,而且有助于加深对博弈一般理论的掌握。著名的囚徒困境,
就可以说纯粹是编排的结果。编排出像囚徒困境这样深刻的博弈故事,会在
博弈论历史上留名。这种说法并不夸大。
既然编排博弈故事既有空间又有价值,我们就不妨试试。学问讲究心得
的喜悦和发现的乐趣。读者和同学如果能够编排出有趣的博弈,固然自得其
乐,还应该受到称赞。你们有了有趣的博弈故事,我也渴望能够分享。
如果我们把抓钱博弈的数据修改成下面的样子,那就出现“温和对抗”
的抓钱博弈:
甲乙甲乙
不拿不拿不拿不拿
(6,4)
拿拿拿拿
(2,0)(1,3)(4,2)(3,5)
温和对抗的抓钱博弈
在温和对抗的抓钱博弈当中,老天爷恩赐给博弈的两位参与人的财富总
数,也是2、4、6、8、10这样越来越多,但是每个参与人可以得到的财富,
既不是利益一致抓钱博弈中那样单调上升,又不是你死我活抓钱博弈中那样,
这次有钱不拿下次可以拿到的钱就只是0。在现在的情况下,财富总数是单调
| 第六章 动态博弈和子博弈精炼均衡 | 225 |
上升的,而每个局中人可以拿到的财富数额,大局上还是上升的,不过却是
曲折上升的:这次你不拿下次你可拿的就少了一些,但是如果下次对方不拿,
再下次你可以拿的就多很多了。在这样的“小跌—大涨—小跌—大涨”的循
环之中,规律是这次跌1元钱,下次涨3元钱。请读者考虑编排适当的故事,
并且捉摸这个博弈的结果。
以后我们将知道,只要博弈的参与人都是追求自身金钱收益最大化这样
的理性主体人,那么不但你死我活的抓钱博弈一开始就结束,在帕累托意义
上没有好的结果,而且温和对抗的抓钱博弈也将一开始就结束,同样没有好
博弈结果依赖制度设置
对于各种抓钱博弈为什么会导致不同的结果,我们在前面说过问题出自
制度设置。为了进一步说明这一点,我们可以赋予抓钱博弈另外的解说:老
天爷赐予人们生长良好的一个果园,但是没有界定产权。因为我们假设了博
弈参与人是那种以金钱为目标的理性人,他们必须关注自己的金钱利益。但
是正是因为利益驱动,一旦这个“采摘博弈”的任何局中人选择采摘,其他
局中人也就要跟着采摘,以免自己的利益受损。
但是如果在这些自利的局中人之间作出不同的制度安排,就可以得到不
做什么博弈,实质上并不重要。如果叫做抓钱博弈将这样分析,那么叫做抢
钱博弈也将完全作同样的分析,而且结果别无二致。
博弈树三例
| 228 | 博弈论平话 |
到现在为止我们描述过的博弈树,不但是半拉子树,而且根本就是一株
藤。这是很特殊的一类“树”。博弈论里面讨论的动态博弈,其博弈树典型地
还可以具有多种形式,上图是随便举出的三例,其中前面两例的树并不对称。
既然抓钱博弈那么不对称的博弈树都见过,那么现在这样一边多枝一边少枝
的博弈树和一边壮一边弱的博弈树,也就毫不奇怪了。
最后需要说明,博弈树也可以自上往下生长,还可以自左上往右下等方
向生长。我们以后会遇到这样的博弈树。总之,“树”的生长方向,就是博弈
进行的方向。“树”的生长,反映博弈决策时刻的进程。
照理说,自下往上生长,自右往左生长,自右上往左下生长,自右下往
左上生长和自左下往右上生长,原则上没有什么不可以。但是,人们自左往
树型博弈策略组合的粗线表示
现在我们把原来同时决策的情侣博弈,改成先后决策的动态博弈。谁先
决策都可以一样分析,只是为了确定起见我们规定男的先决策女的随后决策。
这样,就得到下图的博弈树。
(2,1)
足球
女
足球
芭蕾
(0,0)
男
(–1,–1)
芭蕾
足球
女
芭蕾
(1,2)
男先女后的情侣博弈
在这个动态博弈中,可供男方选择的纯策略仍然是两个:选择足球,或
者选择芭蕾。女方是要在知道男方的决策以后才行动的,所以要把这个信息
因素考虑进去。这样,女方的策略一共有4个:
1. 追随策略:他选择什么,我就选择什么;
2. 对抗策略:他选择什么,我就偏不选什么;
信息问题本来是博弈的一个非常重要的因素。但是为了在本书中突出说
明子博弈精炼纳什均衡的概念,我们暂时把这个信息因素撇开。这样,女方
要在不知道男方的策略选择的情况下,考虑自己的策略选择。对于这种情况,
读者可以想象双方都由代理人实施博弈实战,代理人按照主人的“锦囊妙计”
行事,这样,博弈的参与人就要预先为他们的代理人写好锦囊妙计,锦囊妙
计就是一张预先告诉人家在什么情况下如何行事的单子。
对于比较简单的博弈,可供参与人选择的行动,就是可供参与人选择的
策略。但是现在,一个纯策略就是一个完整的行动方案。
在中山大学岭南学院的教学表明,如果我们在博弈树中把局中人的具体
策略选择特别用粗线标示出来,对于学生进行均衡分析非常有利。道理是充
分利用几何形象,体现视觉优势。
具体来说,男方的两个纯策略可以表示如下:一个是足球策略,往上表
右上角表示的是对抗策略——要是男方往上,即选择足球策略,她就往
下,选择芭蕾策略;要是男方往下,即选择芭蕾策略,她就往上,选择足球
策略;
左下角表示的是足球策略——不管男方选择足球还是芭蕾,她总是选择
足球;
右下角表示的是芭蕾策略——不管男方选择足球还是芭蕾,她总是选择
芭蕾。
女方的4个纯策略
二四得八,一共8个可能的纯策略组合,即8种可能的对局,可以表示为
下页的8幅图:
| 232 | 博弈论平话 |
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
序贯情侣博弈的所有8个纯策略组合
这种在博弈树中把参与人的具体策略选择特别用粗线标示出来从而表达
一个纯策略组合的方法,叫做树型博弈策略组合的。运用这个方
粗线表示法
法的时候,要注意每个纯策略组合需要一个树来表达。
| 第六章 动态博弈和子博弈精炼均衡 | 233 |
确定树博弈的纳什均衡
树博弈也是博弈。博弈的一个纯策略组合是否成为纳什均衡,就看博弈
参与人有没有动机单独偏离当前的策略组合。
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
(2,1)(2,1)
(0,0)(0,0)
(–1,–1)(–1,–1)
(1,2)(1,2)
考察纯策略组合是否纳什均衡
| 234 | 博弈论平话 |
先看左边第一个纯策略组合。在这个对局,男孩选择足球策略得2,女孩
选择追随策略得1。男孩如果单独偏离,男孩的粗线就要从往上变成往下,从
粗线到粗线,他的所得将从2变成–1。所以男孩没有动机单独改变策略选择。
女孩如果单独偏离,在上面单独偏离将使得她的所得从1降为0,所以她不会
在上面那里单独偏离,而在下面单独偏离对博弈结果没有任何影响,所以她
也不会在下面单独偏离。合起来,女孩也没有动机单独偏离。既然双方都没
有动机单独偏离,这个纯策略组合就是博弈的一个纯策略纳什均衡。
现在看左边第二个纯策略组合。如果男孩单独偏离,他的粗线将从往上
变成往下,从粗线到粗线,他的所得将从0变为–1,所以男孩没有动机单独
偏离。但是如果女孩在上面单独偏离,她在那里的粗线将从往下变成往上,
她的所得将从0变成1,所以女孩在这里有动机单独偏离。我们用一个箭头,
表示箭尾这个策略选择有单独偏离的动机。女孩单独在下面偏离不影响博弈
结果,所以这个策略选择是稳定的。总之,在这个纯策略组合,女孩有单独
改变策略选择的动机,所以这个纯策略组合不是博弈的一个纳什均衡。
这样做下去,一个一个检查所有纯策略组合中的每条粗线代表的纯策略
选择有没有单独偏离的动机,凡是有单独偏离的动机的,就画一个箭头表示
愿意偏离的方向。这样全部做完以后,凡是完全没有箭头的纯策略组合,就
是这个博弈的纯策略纳什均衡。
这样,我们就知道,男先女后的情侣博弈一共有3个纯策略纳什均衡,它
们是:(足球策略,足球策略),(足球策略,追随策略)和(芭蕾策略,芭蕾
策略)。策略对局中的第一个位置,写的是先决策的男方的纯策略,第二个位
置写的是后决策的女方的纯策略。
做到现在,即使只从文字上看,也明白其他纯策略组合不是博弈的纳什
| 第六章 动态博弈和子博弈精炼均衡 | 235 |
均衡。例如纯策略组合(芭蕾策略,追随策略),因为女方追随,所以如果男
方把策略选择从芭蕾改为足球,支付马上从1上升到2。所以(芭蕾策略,追
随策略)不是博弈的纳什均衡。
这一节使用的用箭头表示箭尾的策略选择有单独偏离的动机的方法,叫
做。它是我的学生的发明。
偏离动机的箭头标示法
| 236 | 博弈论平话 |
树型博弈的子博弈
我们已经把一个动态博弈表示为一个博弈树。但是树的一枝,又可以看
成一个树,这就自然引出子博弈的概念。这里需要说明,因为所谈的不是自
然生长的树而是原来作为数学概念的树,所以我们通常不说一棵树,而是说
“一个树”。
D
B
E
A
F
C
G
一个较大的博弈树
上面我们画了一个较大的博弈树,圆点是决策点,菱形是对局结果,菱
形的右边应该写出博弈各方在这种对局下之支付。但是现在为了集中注意力
说明子博弈的概念,表示支付的数字都一概不写了。不仅如此,我们连局中
人和可供每个局中人选择的行动和策略都一并省略,从而我们甚至不知道上
述博弈有几个局中人!但是这一切省略或者忽略,不仅并不妨碍我们说明现
在就要引进的子博弈的概念,而且恰恰摒弃了对于子博弈概念本身来说并不
重要的东西。
现在我们只盯着这个大树本身。这是以A为根的一个树。但是如果我们
在B这个地方砍一刀,那么从B往左,还是一个树,是一个以B为根的小很
多的树。同样,如果我们在C这个地方砍一刀,那么从C往左是一个以C为
根的比较小的树。再往左,从D、E、F、G甚至H、I、J、K……这些地方“下
手”,都可以“砍”出小树来,是更小的树。
H
D
B
E
A
F
C
G
树和子树
数学上,把从B或者C或者D或者E或者F或者G往右的小树,即砍出来
以B或者C或者D或者E或者F或者G为根的小树,叫做原来以A为根的树的
| 238 | 博弈论平话 |
子树(subtree)。进一步,以D或者E为根的小树,既是以A为根的大树的子
树,也是以B为根的树的子树;以F或者G为根的小树,既是以A为根的大树
的子树,也是以C为根的树的子树。
一个大树表示一个博弈,一个小树同样表示一个博弈。如果小树是大树
的子树,那么小树表示的博弈,就是大树表示的博弈的(subgame)。
子博弈
上面大树表示的博弈,有许多个子博弈。
为了实际讨论的方便,我们约定,大树不算自己的子树,原来的博弈不
算自己的子博弈。这个约定是因为,规定集合是自己的子集合,在逻辑学上
比较方便,所以比较讲究理论性的著作,都把大树也作为自己的子树,把原
来的博弈也算做自己的子博弈。我们讲究实际应用,会发现采取“凡人思维”,
就像不把自己看做自己的儿子那样,不把大树看做自己的子树、不把博弈看
做自己的子博弈,会使讨论变得比较朴素和比较容易被接受。
| 第六章 动态博弈和子博弈精炼均衡 | 239 |
子博弈精炼纳什均衡
我们从上述序贯情侣博弈的分析中已经知道,在所有8种可能的对局之
中,有3种是纳什均衡的对局。现在的问题是:3种之中,哪一种或者哪一些
最可能发生呢?事实上,我们所有围绕纳什均衡的讨论,思路可以说都是探
寻最可能发生的并且具有最好的稳定性的结果。
针对这个问题,泽尔滕提出了(subgame perfect
子博弈精炼纳什均衡
Nash equilibrium)的概念:在一个博弈的所有作为纳什均衡的策略组合当中,
那些局限在每个子博弈上都仍然是那个子博弈的纳什均衡的策略组合,叫做
子博弈精炼纳什均衡。
按照这个定义,当我们利用博弈树考察一个纳什均衡的时候,只要局限
于某一个子博弈上它不再是纳什均衡,所考察的纳什均衡就不是子博弈精炼
纳什均衡。
首先让我们看动态情侣博弈3个纳什均衡中的第一个。我们不再用剪开的
办法标示我们关注的子博弈,而采用细虚线圈住的方式,因为剪开需要另外
画一张图。现在,我们考察作为纳什均衡的(足球策略,足球策略)这个对局。
从理性行为的要求看,这个策略对局的指向(–1,–1)的一枝,即如果先行
的男孩选择芭蕾,后行的女孩却会选择足球,有点不合常理,因为跟着选择
芭蕾的话她可以得2,而选择足球只能得–1。可见,如果利益最大化真的是
女孩的行为模式,那么她的这个策略选择没有信服力。
事实上,(足球策略,足球策略)这个对局虽然是这个博弈的纳什均衡,
但不是这个博弈的子博弈精炼纳什均衡,因为局限在下面虚线圈住的只有两
枝的子树所标示的子博弈上,指向(–1,–1)的策略选择有单独偏离的激励。
| 240 | 博弈论平话 |
如前,我们用箭头标示这种偏离激励(如下图)。
(2,1)
(0,0)
(–1,–1)
(1,2)
(足球,足球)对局不是子博弈精炼纳什均衡
可见,子博弈精炼纳什均衡的概念,帮助我们排除一些至少缺乏局部稳
定性的纳什均衡。
这一节使用的用细虚线圈住的方式来标示所讨论的子博弈的方法,可以
叫做。
子博弈标示的虚线圈住法
再看动态情侣博弈3个纳什均衡中的第三个。作为原博弈的纳什均衡的
(芭蕾,芭蕾)对局,在我们虚线圈住的对局当中似乎包含一种威胁:如果
男孩选择足球的话,女孩一定和他作对选择芭蕾。但是按照局中人都是理性
人的假设,这个威胁并不可信。事实上,在男孩真的已经选择足球的情况下,
女孩也选择足球可以得1,坚持选择芭蕾只能得0。正如图中箭头所示,在男
孩选择足球的情况下女孩也要芭蕾的策略选择,具有单独偏离的激励。所以,
这个纳什均衡也不是子博弈精炼的纳什均衡。
| 第六章 动态博弈和子博弈精炼均衡 | 241 |
(2,1)
(0,0)
(–1,–1)
(1,2)
(芭蕾,芭蕾)对局不是子博弈精炼纳什均衡
说到这里我们是否可以体会,子博弈精炼纳什均衡,应该是经得起每个
子博弈均衡检验的纳什均衡。例子也告诉我们,包含不可信威胁的纳什均衡,
不是子博弈精炼的纳什均衡。
最后剩下按照原来的排列次序位于第二的那个纳什均衡,即(足球策略,
追随策略)这个纯策略组合。在这个策略组合,无论从全局看还是从每个局
部看,参与人的策略选择都符合稳定性的要求,符合最优性的要求。指向(2,
1)的策略选择,没有改变为指向(0,0)的策略选择的激励;指向(1,2)
的策略选择,也没有改变为指向(–1,–1)的策略选择的激励。
所以,(足球策略,追随策略)这个对局,是男先女后动态的情侣博弈唯
一的子博弈精炼纳什均衡。按照这个纳什均衡,博弈的结果是(足球行动,
足球行动),即男的选择足球这个行动,女的也选择足球这个行动,男的得2
女的得1。再次提醒,现在策略和行动不是一回事。男方是因为选择足球策略
而定位足球,但是女方选择的并不是足球策略,而是追随策略,只是因为追
| 242 | 博弈论平话 |
随,所以在男方定位足球的情况下,她也定位足球。
(2,1)
(0,0)
(–1,–1)
(1,2)
(足球,追随)对局是子博弈精炼的纳什均衡
| 第六章 动态博弈和子博弈精炼均衡 | 243 |
求解动态博弈的倒推法
求解一个博弈,最重要的是确定它最应该发生的那个纳什均衡,即最稳
定的纳什均衡。要把一个博弈的全部纳什均衡找出来,是比较辛苦的工作。
如果只是要求把最稳定的那个纳什均衡找出来,往往就比较容易。对于动态
博弈,人们通常采用(backwards induction),道理是逆向推理。
倒推法
我们以求解男先女后的情侣博弈来演示这个方法。
倒推,就是从最后决策的位置开始分析。现在最后决策的是女孩。
如果她位于上面那个决策节点,也就是说如果先决策的男孩选择了足球,
那么她选择足球可以得1,选择芭蕾只能得0,所以她选择足球,把芭蕾的选
择删去,我们在图上用双线表示。如果她位于下面那个决策节点,也就是说
如果先决策的男孩选择了芭蕾,那么她选择芭蕾可以得2。选择足球只能得负
数,所以她选择芭蕾,把足球的选择删去。
现在倒推到男孩决策的时候,他要决策选择足球向上走,还是向下走选
择芭蕾。由于走到上面只有一条路继续向上他可以得到2,走到下面只有一条
路继续向下他只能得到1,所以他一点选择向上走,即选择足球,而把芭蕾的
选择砍去。
这样做完以后,我们看到这个动态博弈实际上只有一条路走,那就是先
行的男孩选择足球这个行动,后行的女孩也选择足球这个行动,结果是(足
球行动,足球行动),相应的支付为(2,1)。
| 244 | 博弈论平话 |
足球
女
足球
芭蕾
(2,1)
(0,0)
男
(–1,–1)
芭蕾
足球
女
芭蕾
(1,2)
男先女后的情侣博弈
再看先前讲过的抓钱博弈,我们选择温和对抗的那个来做。
甲乙甲乙
不拿不拿不拿不拿
(6,4)
拿拿拿拿
(2,0)(1,3)(4,2)(3,5)
温和对抗的抓钱博弈
最后决策的是乙。如果博弈已经进行到这里,那么要是乙决策把钱拿走,
他可以得到5,要是不拿,博弈也将结束,但是他只能得到4。所以在这个决
策节点,乙会选择把钱拿走,也就是说把不拿钱的选择删去,如图双线所示。
倒数第二决策的是甲。如果博弈已经进行到这里,那么要是甲决策把钱
拿走,他可以得到4,要是不拿,博弈只有一条路走到结束,他只能得到3。
| 第六章 动态博弈和子博弈精炼均衡 | 245 |
所以在这个决策节点,甲同样会选择把钱拿走,也就是说把他自己不拿钱的
选择删去。
现在轮到倒数第三个决策位置的乙。如果博弈已经走到这里,那么要是
乙决策把钱拿走,他可以得到3,要是不拿,博弈只有一条路走到结束,他只
能得到2。所以在这个决策节点,乙还是会选择把钱拿走,也就是说把他自己
不拿钱的选择删去。
最后看首先决策的甲。要是博弈一开始甲就决策把钱拿走,他可以得到2,
要是不拿的话,博弈也已经只有一条路走到结束,他只能得到1。所以为了个
人金钱利益,甲会选择一开始就把钱拿走,同样是把他自己不拿钱的选择删去。
所以,这个温和对抗的抓钱博弈的结果,是博弈一开始,甲就把钱拿走,
他得到2,乙得到0。
这样运用倒推法做出来的结果,都是子博弈精炼的纳什均衡的结果。有
兴趣的读者不妨自己尝试验证。
倒推法实际上是从博弈树的最末端的子博弈开始,逐次排除有偏离激励
的策略选择。大家知道,最末端的子博弈,是最小的子博弈。随着倒推法的
进行,作为考察范围的子博弈一级一级被套住变得越来越大,最后是整个原
博弈论向自己出难题
现在把抓钱博弈“拉长”,变得先后决策上万次,描述博弈的博弈树就变
得像一条蜈蚣。所以,这种博弈也叫做蜈蚣博弈。
ABABABA
……(0,10 000)
……
(1,0)(0,2)(3,0)(0,4)(5,0)(0,9 998)(9 999,0)
蜈蚣博弈
为了理解这个博弈,你可以想象有人主持A、B两人做博弈游戏,决策点
上面写谁就是轮到谁决策。一开始,A决策。如果他决策结束游戏,他得1,
B得0;他不结束游戏,就轮到B决策。这时如果B决策结束游戏,B得2,A
得0;他不结束游戏,则又轮到A决策。所以你看,两人轮流决策,奖赏越
来越大,谁决策结束游戏,谁就得到全部奖赏,而对方什么也得不到。假定
N=9 999,那么如果玩到第9 999次A还不结束游戏,游戏就要强制结束,B
得到10 000,A得0。
这个博弈的结果如何呢?因为它是轮流决策的有限次结束的博弈,我们
可以用倒推法来做。在第9 999次,A想如果我不决策结束,B就会得到全
部奖赏10 000,我什么也没有,而且再也没有机会。所以,为自己的利益A
是一定要决策结束的。可是A根本没有这样决策的机会,因为在此之前的第
9 998次,B想如果我不决策结束,下一轮A一定要决策结束,他会得到
9 999,我什么也得不到。所以,为自己的利益,如果轮到B在第9 998次决策,
| 第六章 动态博弈和子博弈精炼均衡 | 247 |
他一定决策结束。可是B也没有这样的机会,因为如果A能在第9 997次决策,
A也要马上结束。这样一步一步倒推回去,最后的结果,就是A在第一次决
策时马上决策结束游戏,自己得到可怜的1,而B更惨,只得0。
如果你是A或B,你会一有机会就马上结束这个游戏吗?这是完全信息
的动态博弈,前景可能怎样,是完全清楚的。明明是玩得越久奖赏越高,可
是私利作怪,似乎轮到谁决策谁就要结束,所以一开始玩就要结束,牺牲了
获取10 000的机会。也许两人可以订立协议,一直不结束,最后主持者给B
的10 000元,由两家私下平分。可是这样一来,就不是非合作博弈了。再说,
如果当局宣布任何这样的协议都属违法,你看游戏会如何进行?
只要结束游戏就一个人得到全部奖赏,看起来太严酷。那么再举一个不
那么严酷的例子,双方都得到奖赏,而且总体上说奖赏越来越高。规则是这
样:A、B两次决策为一组,第一次若A决策结束,A、B都得n,第二次若B
决策结束,A得n–1而B得n+2;下一轮则从A、B都得n+1开始,可以一直玩
上百次。如果博弈的参与人一直都不决策拿钱,则博弈强制结束,双方各得
100。
ABABAAB
……(100,100)
……
(1,1)(0,3)(2,2)(1,4)(3,3)(99,99)(98,101)
另一种蜈蚣博弈
如果你会倒推论证,就知道如果两人彻底理性,也就是说两人都斤斤计
较,那么博弈的结果仍然是一开始就结束,两人各得1。请你完成这个推理。
| 248 | 博弈论平话 |
他们都为眼前的蝇头小利抢先结束游戏,牺牲获得很大的好处的机会。
人类行为是这样的吗?博弈论向自己提出这样的问题,也向整个经济学提出
这样的问题。
即使说只为钱,即使说追求收入最大化,为什么不能目光远大一些呢?
对于A来说,目光短浅地为钱,就是一开始就抢掉那1元钱,以免什么钱也拿
不到的可能;目光远大地为钱,就是先不拿钱,顶多损失1元钱,说不定可
以换来100元钱光景的收入。对于B来说,目光短浅地为钱,就是头一次轮到
他决策就抢掉那3元钱,以免只能拿到2元钱的可能;目光远大地为钱,就是
暂时不拿钱,顶多少拿1元钱,说不定可以换来100元钱光景的收入。
事实上,因为这个博弈将怎么进行是双方都清楚的事情,所以两人有
理由稍稍修正原来彻底理性的立场,而只要他们都稍稍修正立场,变得目
光远大一些,都不做提前结束博弈的事,两人都可以实现最高或者接近最
高的收入。
| 第六章 动态博弈和子博弈精炼均衡 | 249 |
实验经济学和行为经济学
即使回到同时决策博弈,博弈论学者也为我们提供了理性推导与人类行
为背离的例子:两个旅行者从一个以出产细瓷花瓶闻名的地方旅行回来,他
们都买了花瓶。提取行李的时候,发现花瓶被摔坏了。他们向航空公司索赔。
航空公司知道花瓶的价格总在八九十元的价位浮动,但是不知道两位旅客买
的时候的确切价格是多少。于是,航空公司请两位旅客在100元以内自己写
下花瓶的价格。如果两人写的一样,航空公司将认为他们讲的是真话,并按
照他们写的数额赔偿;如果两人写的不一样,航空公司就论定写得低的旅客
讲的是真话,并且原则上照这个低的价格赔偿,但是对讲真话的旅客奖励2
元钱,对讲假话的旅客罚款2元。
就为了获取最大赔偿而言,本来甲乙双方最好的策略,就是都写100元,
这样两人都能够获赔100元。可是不,甲很聪明,他想:如果我少写1元变成
99元,而乙会写100元,这样我将得到101元。何乐而不为?所以他准备写
99元。可是乙更加聪明,他算计到甲要算计他写99元,“人不犯我,我不犯人,
人若犯我,我必犯人”,他准备写98元。想不到甲还要更聪明一个层次,计算
出乙要这样写98元来坑他,“来而不往非礼也”,他准备写97元。……大家知
道,下象棋的时候,不是说要多“看”几步吗,“看”得越远,胜面越大。你
多看两步,我比你更强多看三步,你多看四步,我比你更老谋深算多看五步。
在花瓶索赔的例子中,如果两个人都彻底理性,都能看透十几步甚至几十步
上百步,那么上面那样精明比赛的结果,最后落到每个人都只写0元的田地。
事实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两人都写0!
这就是印度德里经济学院(Kaushik Basu)教授在1994年美国经济
巴苏
| 250 | 博弈论平话 |
学会年会上提交的论文中提出的著名的(travelers’ dilemma),
“旅行者困境”
后来论文发表在1994年5月号的《美国经济评论》上。一方面,它有启示人
们在为私利考虑的时候不要太“精明”的价值,告诫人们精明不等于高明,
太精明往往会坏事;但是更加重要的却是,它对于“理性行为”假设的适用
性提出了警戒:有了这个假设,我们就可以按照这个明确的比较取舍标准来
进行推理,但是推断出来的结论是否符合实际,依赖于应用“理性行为”假
设的程度。如果你的论证像“旅行者困境”那样,假设当事人彻底理性,能
够算计到十几步甚至几十步上百步,那么你推论出来的结果,未必符合世界
的现实。
大家知道,理性行为假设本来是主流经济学讨论消费者和企业这些经济
主体人的行为的基本假设。上面一系列例子说明,经济学在理性行为假设之
下得到的结论是否符合实际,还要进行另外的分析。在这个意义上,旅行者
困境是所有博弈论学者甚至所有经济学者自己必须面对的“困境”。困境说起
来不好听,那我们就把它称为难题。博弈论经常给自己出难题,旅行者困境
是又一个例子。
历史上,经济学一直从自我解答难题或者悖论中得到提高和发展。例如
在商品的价格由什么决定这个根本性的问题上,善良的人们曾经设想越有用
的东西应该越贵,后来思考最有用的水反而比较便宜这个难题,才明白价格
人都会为眼前的蝇头小利抢先结束游戏,牺牲未来获得很大的好处的机会。
但事实上绝大多数的人类行为并非如此。理论结果与实验结果的反差,引导
经济学家重新审视理论模型的前提假设,并达致这样的共识:经济学中的理
性行为假设,或者说经济人假设,实际上是彻底理性假设。蜈蚣博弈上述
实际上建立在彻底理性假设基础上的倒推论证结果与实验结果的巨大差异,
启发我们思考彻底理性假设的合理性。这种思考,导致(bounded
有限理性
rationality)的理念和(behavioral economics)的诞生。回顾本书
行为经济学
迄今的学习,读者应该能够体会到,以往的经济人假设或者理性行为假设,
的确是彻底理性假设,实际上假设经济学讨论的主体人,包括消费者、劳动
者和企业,都是彻底理性的主体人。所谓有限理性,粗略地说,就是指行为
不是彻底理性的这么一种情况。把彻底理性修改为有限理性,就是认识到经
济学应该也讨论不彻底理性的行为。进一步我们可以粗略地说,引入有限理
性的经济学讨论,就是行为经济学的讨论。
在这个过程中,经济学实验的作用功不可没。经济学实验常常找学生做。
| 索 引 |
(按汉语拼音次序排列,数目为首次出现的页码)
AD
奥曼 15倒推法 244
B
巴苏 250
边际效用递减规律 113
博弈的展开型表示 221
博弈树 219
C
参与人 11
策略 13反应函数法 128
纯策略 122风险厌恶 111
纯策略纳什均衡 120风险优势 99
粗线表示法 233
等价 80
迪克西特 14
动态博弈 218
斗鸡博弈 79
对策论 20
E
F
GL
H
哈萨尼 77
混合策略 122
混合策略纳什均衡 120
霍特林 187
I
J
基数 31
静态博弈 218
聚点均衡 143
矩阵型博弈 221
K
抗共谋纳什均衡 161
库恩 6
| 254 | 博弈论平话 |
理性主体人 16
零和博弈 120
零和二人博弈 175
旅行者困境 251
M
《麦琪的礼物》 57
N
纳什 41
纳什定理 124
纳什均衡 41
奈尔伯夫 14
诺曼底登陆模拟博弈 12
O
帕累托效率 77
帕累托优势 77
帕累托最优 87
偏离动机的箭头标示法236
偏离损失比较法 108
扑克牌对色游戏 119
Q
期望支付 99
情侣博弈 41
囚徒困境 17
全面的严格的优势策略16
R
S
萨缪尔森 VII序数 31
双赢 21
T
同时决策博弈 218严格劣势策略消去法 18
U
V
W
X
相对优势策略下划线法 46
相关均衡 151
效用 114
谢林 14
协调博弈 209
性别之战 41
严格劣势策略逐次消去法 18正规型博弈 221
严格优势策略 16支付 13
严格优势策略均衡 17智猪博弈 71
有限同时博弈 120子博弈 239
有限理性 252子博弈标示的虚线圈住法 241
Z
泽尔滕 77
展开型博弈 221
张五常 193
| 256 | 博弈论平话 |
子博弈精炼纳什均衡 240
邹陈国瑞 6
邹至庄 6
最惠客条款 104
本文发布于:2023-11-10 10:32:30,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1699583550211509.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:博弈论平话.doc
本文 PDF 下载地址:博弈论平话.pdf
留言与评论(共有 0 条评论) |