盘点博弈论&纳什均衡&囚徒困境&零和博弈&智猪博弈
1.博弈论是什么
博弈论(game theory),又译为对策论,或者赛局理论,经
济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博
弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因
此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟
大的成果之一。目前在生物学、经济学、国际关系、计算机科学、
政治学、军事战略和其他很多学科都有广泛的应用。主要研究公
式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有
斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要
学科。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参
加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自
的目标和利益,各方必须考虑对手的各种可能的行动方案,并力
图选取对自己最为有利或最为合理的方案。比如日常生活中的下
棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最
合理的行为方案,以及如何找到这个合理的行为方案的数学理论
和方法。
2.纳什均衡(Nash equilibrium)
选择却往往导致集体的非理性。虽然困境本身只属模型性质,但
现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷
希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式
阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下
相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而
对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样
判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监5年。
用表格概述如下:
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)
都是利己的,即都寻求最大自身利益,而不关心另一参与者的利
益。参与者某一策略所得利益,如果在任何情况下都比其他策略
要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。
另外,没有任何其他力量干预个人决策,参与者可完全按照自己
意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最
短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能
交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,
检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名
理性囚徒会如何作出选择:
若对方沉默、我背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所
以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结
论——选择背叛。背叛是两种策略之中的支配性策略。因此,这
场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,
结果二人同样服刑5年。
亚当·斯密的理论(“看不见的手”原理),在市场经济中,
每一个人都从利己的目的出发,而最终全社会达到利他的效果。
但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个
悖论:从利己目的出发,结果损人不利己,既不利己也不利他。
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两
国都可以声称有两种选择:增加军备(背叛)、或是达成削减武
器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最
终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国
的“理性”行为,但结果却显得“非理性”(例如会对经济造成
损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来
遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以下两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)
两国的商品失去了对方的市场,对本身经济也造成损害(共同背
叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果
是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告
就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协
议是较为困难的,多数都会陷入囚徒困境中。
4. 零和博弈
零和博弈(zero-sum game),又称零和游戏或零和赛局,与非
零和博弈相对,是博弈论的一个概念,属非合作博弈。零和博弈
也可以说:自己的幸福是建立在他人的痛苦之上的,二者的大
小完全相等,因而双方都想尽一切办法以实现“损人利己”。零
和博弈的例子有赌博、期货和选举等。
5.智猪博弈
在长条形的猪圈中关着大小两头猪。猪圈一端有一个猪食槽,
另一端有一个按钮,可以控制猪食槽中的食物,按下按钮后就有10
单位的猪食进入食槽。大猪进食的速度快,如果大猪先到达食槽
处,可以吃到9个单位的猪食(小猪吃到剩余的食物,下同);
如果同时到达,大猪吃到7个单位猪食;如果小猪先到,大猪吃
到6个单位。另外,按下按钮者跑到猪食槽处需要付出2单位猪
食的代价。假设两头猪从按钮处跑到猪食槽处所需时间相同。
两头猪都有两种选择:按按钮后跑到猪食槽,或者在猪食槽处
等待。因此,可以列出下列支付矩阵(行表示大猪,列表示小猪):
容易看出,无论大猪如何选择,小猪选择等待获得的收益总是比
按按钮更高。换言之,小猪选择等待是一个优势策略。给定小猪
选择等待,大猪会选择按按钮去获得更大的收益。因此,整个博
本文发布于:2023-11-10 09:25:37,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1699579538211469.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:盘点博弈论纳什均衡囚徒困境零和博弈智猪博弈.doc
本文 PDF 下载地址:盘点博弈论纳什均衡囚徒困境零和博弈智猪博弈.pdf
留言与评论(共有 0 条评论) |