potential

更新时间:2022-11-24 15:57:16 阅读: 评论:0


2022年11月24日发(作者:吴亦凡 freestyle)

【博弈论】势博弈(potentialgame)、EPG以及最佳响应、Nash均衡和帕累托

(。。。

⽂章⽬录

前⾔

本⽂主要详细讲解potentialgame的概念以及Exactpotentialgame的定义和分类,以及这么博弈⽅法是如何在论⽂中引⼊并使⽤的,本

⽂仅是对⾃⼰在该模块学习的⼀个总结,如果理解有误,还请批评指正,谢谢~

⼀、Potentialgame

Potentialgame即势博弈。在⼀场博弈中,每个⽤户可以做出⾃⼰的策略,并且通过调整策略使⾃⼰的效⽤(utility或者收益payoff)最

⼤,假设这种通过调整策略得到的函数为效⽤函数,即Utilityfunction,且与策略有关,我们写作,其中表⽰第n次出牌的策略。

由于我们建⽴该game的⽬的是让每个⽤户的效⽤最⼤,也就是每个⽤户对⾃⼰策略的改变⼀定的单调的,所以,假设每个⽤户的效⽤函数

的改变都能映射到⼀个势函数(Potentialfunction)中,那么potentialfunction也是单调的,此时将这种博弈称作势博弈。

定义:如果存在⼀个函数,满⾜任意,有

其中,表⽰不同于的策略,⽽表⽰系统中其他⽤户的策略,具体如果要在代码中实现,可以理解为上⼀轮其他所有⽤户的策略集

合,再以此得到⾃⼰本轮的策略。(不确定这样理解是不是对的,如有不对,望指正谢谢~)

⼆、Nash均衡和Pareto-optimal(帕累托最优)

这两种均是得到上述最优策略的⽅法。

均衡

⽤户通过不断改变⾃⼰的策略使⾃⾝的效⽤或收益最⼤,直到所有⽤户都满意,并不再改变策略为⽌,此时即为Nash(纳什)均衡,有:

Nash均衡的存在性和唯⼀性证明:

1.存在性:⾸先⾃变量是空间上⾮空闭合有界凸集,其次是在区间上拟凹或者拟凸的

2.唯⼀性:分为⾮负性、单调性以及可伸缩性

当然Nash均衡也有细分,分为纯策略(pure-strategy)纳什均衡和混合策略(mixed-strategy)纳什均衡,两者分别是纯策略的⽤户最

优结果实现的均衡以及混合策略的⽤户最优结果实现的均衡,其中纯策略使指每个⽤户只做出⼀个策略选择并始终坚持这个策略;⽽⽤户使

选择的策略随机化,并根据不同的重要性对每个策略制定⼀个概率,这种依据概率做出的策略即为混合策略。

最优

上述讲的势博弈以及nash均衡中的最优都是针对⼀个⽤户⽽⾔,⽤户根据⾃⼰的策略选择,使⾃⾝的效益最⼤化;但是pareto最优是使整

体效益最优,谋求的是⼀个集体利益或者说社会福利最⼤化,因此pareto最优是指对每⼀个和效⽤最⼤的策略组合。

如果将囚徒困境的例⼦引⼊,

f(s)nsn

f(s)n

p:S→Rn∈N

U(s,s)−nn

−nU(s,s)=nn

−np(s,s)−n

−np(s,s)n

−n

sn

sns−n

U(s,s)≥nn

−n

U(s,s)nn

−n

snU(s,s)nn

−n

假设有两个⼩偷A和B联合犯事、私⼊民宅被警察抓住。警⽅将两⼈分别置于不同的两个房间内进⾏审讯,对每⼀个犯罪嫌疑⼈,警⽅给出

的政策是:

1.如果⼀个犯罪嫌疑⼈坦⽩了罪⾏,交出了赃物,于是证据确凿,两⼈都被判有罪。如果另⼀个犯罪嫌疑⼈也作了坦⽩,则两⼈各被判

刑8年。

2.如果另⼀个犯罪嫌⼈没有坦⽩⽽是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,共10年,⽽坦⽩者有功被减刑8年,

⽴即释放,即0年。

3.如果两⼈都抵赖,则警⽅因证据不⾜不能判两⼈的偷窃罪,但可以私⼊民宅的罪名将两⼈各判⼊狱1年。

两⼈的选择见下表:表中的数字表⽰A,B各⾃的判刑结果:

如上所⽰,当两者都坦⽩时,是对⾃⼰最好的结果,此时针对Nash均衡点即为(-8,-8)的点,但是如果针对pareto最优,就是两者都抵

赖的为该最优点,即(-1,-1)。

三、Bestrespon(最佳响应)

基于上述Potentialgame的定义,当通过调整策略使效⽤最⼤的点即为最优策略,下式即为最佳响应公式:

四、Exactpotentialgame(EPG)

针对上述Potentialgame的定义:

如果存在⼀个函数,满⾜任意,有

如果处处可微,则严格势博弈(EPG)的充分条件为:

可以理解为严格势博弈是势博弈的⼀种,并且当满⾜上式时,为严格势博弈,因此严格势博弈也⼀样满⾜效⽤函数之差等于势函数之差。同

时严格势博弈主要分为以下5中博弈:

以下参考《博弈论》书籍,具体哪个作者忘记了

1.合作-傀儡博弈

如果博弈的所有参与者的效⽤函数可以⽤表⽰,其中与n⽆关,则其势函数为:

定义了⼀个合作函数,所有博弈参与者对于具有的策略s都会得到相应的回报,定义了⼀个傀儡函数,参与者n的结构不依赖

于⾃⾝的策略,⽽是依赖于其他参与者的策略

由于满⾜:,故C(s)为该博弈的势函数。

2.合作博弈

即只有合作函数,因此上述,即

3.傀儡博弈

即只有傀儡函数,,,此时傀儡博弈的势函数都是⼀个常函数。

4.⾃激博弈

如果所有的博弈者都有如下的效⽤函数,那么这种类型的博弈就叫做⾃激博弈:

s=n

U(s,s)s

n

argmax

nn

−n

p:S→Rn∈N

U(s,s)−nn

−nU(s,s)=nn

−np(s,s)−n

−np(s,s)n

−n

Un

=∂s∂si

j

∂U(s)2

i,i,j∈∂s∂sj

i

∂U(s)2

j

N

U(s)=nC(s)+D(s)n

−nC(s)p=C(s)

C(s)D(s)n

−n

U(s,s)−nn

−nU(s,s)=nn

−nC(s,s)−n

−nC(s,s)n

−n

D(s)=n

−n0U(s)=nC(s)

U(s)=nD(s)n

−nC(s)=0

其中,由于博弈被定义为⼀种相互影响的决策过程,⽽⾃激博弈确是没有相互影响的交互过程,因此严格上说不算是博弈,其

势函数为:

5.双边对称交互博弈

如果每个博弈的参与者的效⽤函数都可以表达如下的形式:

其中为双边交互函数,为⾃利函数,如果对于所有,有,那么这种博弈称为双边对称博

弈,其势函数为:

其中第⼀项是交互部分,后⼀项是仅关于i的部分。

使⽤理解

⾸先要证明建⽴的游戏理论模型符合势博弈的定义,其次要证明存在Nash均衡点,并根据不断调整策略(迭代的过程)利⽤最佳响应得到

Nash均衡点(即最优策略)以及最⼤的效⽤。其中势函数的建⽴过程可以证明是否符合EPG,并根据具体的博弈模型建⽴势函数,也可以

直接⾃⼰找到具体的对应关系。

U(s)=nK(s)nn

K:ns→nR

P=K(s)n∈N

nn

U(s)=iwj(s,s)−j∈N

i,j

i

jK(s)ii

wi,jKi(s,s)∈i

jS×iSjw(s,s)=i,j

i

jw(s,s)i,jj

i

p(s)=(wj(s,s)−i∈N

j=1

i−1

i,j

i

jK(s))ii

本文发布于:2022-11-24 15:57:16,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/12807.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:考研都考什么
下一篇:approve名词
标签:potential
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图