经典博弈论概述
1什么是博弈论
博弈论是一种独特的处于各学科之间的研究人类行为的方法。 与博弈论有关的学科包括 数学,经济学和其他社会科学和行为科学。博弈论是由约翰•冯•诺依曼创立的,该领域第 一本重要著作是诺依曼和另一个伟大的数理经济学家奥斯卡•摩根斯坦所著的。
博弈论是关于包含相互依存情况中理性行为的研究。 所谓相互依存, 通常是指博弈中的 任何一个参与者受到其他参与者行为的影响, 反过来, 他的行为也影响到其他参与者。 由于 这种相互依存性, 游戏或博弈的结果依赖于每一个参与者的决策, 没有一个人能完全地控制 所要发生的事情, 也没有一个参与者处于孤独的状态。 相互依存常使博弈中的参与者之间产 生竞争。譬如两个人分蛋糕、每个参与者都希望自己的那块可以分得大一些。然而,竞争仅 仅是博弈论中相互依存的一个方面。应该指出,通常地博弈并非纯粹是参与者之间的竞争, 相互依存的另一个方面是参与者可以有某些共同的兴趣或利益所在。 仍以分蛋糕为例, 作为
参与者策略行动的结果, 蛋糕的大小可以增加或者减少。 参与者的共同兴趣在于增加蛋糕的 总量,他们互相“倾轧”之处在于如何分配。从博弈论研究的角度,增大蛋糕应是博弈的第 一步,而分配蛋糕则是博弈的第二步。
在博弈论中还需要对一个词“理性行为” 作一些说明。博弈论中的所谓理性,一般不是 指道德标准。从参加博弈的参与者的眼光来看,他们试图去实施自己认为可能最好的行为, 尽管这样的行为有可能损害了其他参与者。
由于参与者的相互依存性, 博弈中一个理性的决策必定建立在预测其他参与者的反应之 上。一个参与者将自己置身于其他参与者的位置并为他着想从而预测其他参与者将选择的行 动,在这个基础上该参与者决定自己最理想的行动,这就是博弈论方法的本质与精髓。
博弈论中每一个参与者做出理性决策的重要依据之一是他的可能收益有多少, 这就是一
个参与者需要认真计算的收益函数 (payoff function) 。对于每一个参与者、 如果他们在可供自 己选择的策略空间中任取一个策略作为自己的行动, 既不会给自己带来盈利, 又不会使他们 必须付出, 这种失去了激励机制的游戏本身也就失去了“博” 的意义,在社会经济
领域中尤 其不太可能出现这类现象。 收益函数的结构与取值无疑将会影响到参与者的行为, 因而也影
响到博弈的最终结局。 由此, 收益函数的确定在博弈论研究中是件非常重要的事情。 从对博 弈的不同角度考虑。从参与者不同的观点出发可以有形形色色的收益函数。
博弈所涉及的内容:
⑴参与者。以i = 1、2,,表示。
⑵每个参与者一般有若干个策略 (strategies)可供选择,它们构成了该参与者的纯策略空 间。参与者 i 的纯策略空间用 si 表示, 倘若 si 由。 i 个纯策略构成, 则有 si =(si1 , si2., si)。 纯策略空间有时也可以是连续的。
⑶每个参与者的盈利函数。我们记参与者 i的盈利函数为ui(s),其中s= (si, sr),而
sj表示参与者J所取策略,s表示r个参与者的策略向量。显然,盈利函数 ui(s)与s有密切 关系。它是每个参与者真正关心的东西。
2博弈的分类
策略空间、 盈利函数以及参与者的与博弈有关的特征等知识构成博弈的信息, 从信息的
角度,博弈可以分为完全信息与不完全信息两类,信息是博弈论中的重要内容。
完全信息博弈是指参与者对所有参与者的策略空间及策略组合下的收益有完全的了解, 否则是不完全信息博弈。 对于不完全信息的博弈, 至少有一个参与者不能确切知道其他参与 者的收益函数, 在这种情况下, 参与者所做的是努力使自己的期望收益或期望效用最大化 。
从博弈的均衡结果来看, 博弈分为合作性博弈和非合作性博弈。 所谓合作性博弈是指参 与者从自己的利益出发选择行动, 但所选择的行动其结果对双方均有利; 而非合作性博弈是 指参与者的行动选择对双方均不利。 人们分工与交换的经济活动就是合作性的博弈, 而“囚 徒困境” 便是典型的非合作性博弈。 博弈又分静态博弈和动态博弈。 静态博弈是指参与者同 时采取行动, 或者尽管参与者行动的采取有先后顺序, 但后行动的人不知道先采取行动的人 采取的是什么行动。 动态博弈指双方的行动有先后顺序, 并且后采取行动的人可以知道先采 取行动的人所采取的行动。
3纳什均衡
纳什均衡是博弈分析中的重要概念。 1950 年,还是一名研究生的纳什撰写了一篇论文, 题为《 N 人博弈的均衡问题》 ,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典 文献。在这篇论文中,纳什给出了博弈均衡的定义,即纳什均衡。
纳什均衡一般可以这样定义: 如果决策组合处于这样的状态, 即给定别人的选择, 没有 任何人有积极性改变自己的决策, 那么这个决策组合就是纳什均衡。 纳什是普林斯顿大学的 教授,因为在非合作博弈理论方面的开创性贡献而获得 1994 年诺贝尔经济学奖。他是一个 了不起的数学天才,早在 1951 年,当他还只有 20 多岁的时候就提出了日后奠定非合作博 弈分析基础的均衡概念, 也即今天在社会科学教科书中广泛传播的 “纳什均衡” 概念; 另外, 他在纯数学领域也有重要的贡献。 这个问题可以换一个角度理解: 假如当事人之间签订了一 个合同或协议, 在给定其他人遵守协议、 没有外在强制力的情况下, 每个人是不是有积极性 遵守协议?如果所有的人都有积极性遵守协议,这个协议就是一个纳什均衡。例如 10 个人 签订一个协议,假定另外 9 个人都遵守协议时,最后 1 个人是不是有积极性遵守协议?从 纳什均衡的概念可以得知, 在某些给定条件下, 如果治理结构或
者一个公司合同不是一个纳 什均衡的话, 那么它将不会自动得到遵守, 合同或协议签了也无用。 因此纳什均衡简单说就 是一个策略组合中, 所有的参与者面临这样的一种情况: 当其他人不改变策略时, 他此时的 策略是最好的。
也就是说, 此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的 参与者都不会有单独改变策略的冲动。
如下述“夫妻博弈” (或称性别之战 )中有两个纳什均衡点。丈夫和妻子商量晚上的 5 活 动,丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚。在这个 "夫妻 博弈 "中有两个纳什均衡点: (歌剧,歌剧 ),(拳击,拳击 )。在有两个或两个以上纳什均衡点 的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏 歌剧还是一起去看拳击。
纳什均衡是博弈论中的重要概念, 同时也是经济学的重要概念。 诺贝尔经济学奖获得者 萨缪尔森有一句幽默的话: 你可以将一只鹦鹉训练成经济学家, 因为它所需要学习的只有两 个词: 供给与需求。 博弈论专家坎多瑞引申说:要成为现代经济学家, 这只鹦鹉必须再多学
一个词,这个词就是“纳什均衡” 。由此可见纳什均衡在现代经济学中的重要性。纳什均衡 不仅对经济学意义重大,对其他社会科学意义也同样重大。
4囚徒困境及其解析
囚徒困境是纳什的导师图克( Tucker )构造的重要的博弈模型,它是典型的困境,可说 明许多现象。在这个模型中有两个囚徒, 这两个囚徒一起做坏事, 结果被警察抓了起来,分 别关在两个独立的不能互通信息的牢房里进行审讯。 在这种情形下, 两个囚犯都可以独立做 出自己的选择。他们被告知: ( 1)如果他们之中有一人坦白,而另一人不坦白,则坦白者可 获得自由,而拒不坦白者要被判十年监禁。 (2)如果两人都坦白,则两人都被判五年监禁。 (3)如果两人都不坦白,则两人都被判一年监禁。囚徒困境有两个前提预设:一是甲乙二 人都是自利理性的个人, 即只要给出两种可选的策略, 每一方将总是选择其中对他更有利的 那种策略。 二是两人无法互通信息, 要在不知道对方选择结果的情况下,自己进行选择。在 这种条件下,从甲立场来看,共有两种可能情况: 第一种可能是乙采取坦白的策略,这时如
果甲也坦白,则要入狱五年,如果不坦白,则要入狱十年,两相比较,结论是应该坦白。
第 二种可能是乙采取沉默的态度, 这时若甲也沉默,要入狱一年,如果甲坦白,则可获得自由,
两相比较结论是应该坦白。 因此,无论乙是坦白还是沉默, 甲采取坦白的策略对自己更为有
利。同样以上推理对于乙也适用。结果两个囚徒都坦白了,都被判刑五年。
囚徒困境的“困境”在于如果甲乙二人都保持沉默,则都只被判刑一年,显然比两人都 坦白的结果要好。可是两人经过一番理性计算后, 却选择了一个使自己陷入不利的结局。 囚
徒困境是对传统经济学基础的重大挑战。 因为传统经济学认为, 人的经济行为的根本动机是
自利,因此经济学不必担心每一个经济行为主体参与竞争的动力, 只需关注如何让每个求利
者能够自由参与尽可能展开公平竞争的市场机制。 只要市场机制公正,自然会增进社会福利。
但是囚徒困境的结果,恰恰表明个人理性不能通过市场导致社会福利的最优。 只从自己的角
度出发,考虑自己利益的最大化, 这种基于个人理性选择的结果往往适得其反, 导致整体利
益的最小化。
有人可能会认为:囚徒困境只是“象牙之塔”中的理论家虚构的一种“思想游戏” ,或
是一种难得一见的特例。这实在是一种错觉。
应该承认:囚徒困境最初的确是“象牙之塔”中的“抽象理论思维”的“产物” 。如同
其他的许多“象牙之塔”中的产物一样,人们愈来愈深刻地感觉到它同“现实世界”实际上 是存在着密切联系的。
已经发现,在经济学、政治学、社会学及现实生活中类似囚徒困境的事例是大量存在的。 对于囚徒困境的原因、条件、性质、意义等问题,博弈论专家、经济学家、政治学家、社会 学家、哲学家、伦理学家、社会心理学家已从许多方面进行了大量的研究。有人注意到在囚 徒困境的“案例”中两个参与者不能互相通信是一个限制性条件, 因此他们设想这就是造成
囚徒困境的“原因”。例如,有人说:“囚徒的苦恼在于他们不能商量沟通。 ”于是,有人便
提出了如下的解决问题的途径:两个参与者可以“进行通信,然后合作” 。反对者认为这是
于事无补、不解决问题的。 “显然,一个囚徒要保持沉默的意图不可能引起另一个囚徒有同
样的意图一一如果另一方忽视这个意图的话。
不准通信的假定对于囚徒困境来说不是关键性的。 可以增加一个通信条件,但这仍然不
能造成什么不同,只要假定每个人对可能结果的偏爱顺序与以前相同并且每个人可以自由地 选择与另一个人的意图相反的策略。 每个囚徒都可以对另一个囚徒说: ’如果你将保持沉默,
那么我也将保持沉默’;可是,只要每个囚徒可自由地说一套而做另一套,那么困境就没有 什么变化”。有人也许会假定可能存在着强迫性协议条款,比方说对违反协议进行特定的处 罚,这就会改变囚徒的偏好顺序。 这样的假定会改变原有的决策问题的结构。 而我们一直假