上节课通过一个博弈已经引出了最佳应对(Best Response,BR)。本节课通过点球博弈会对最佳应对进行更深入的探讨,并给出定义。同时通过介绍商业合作博弈,引入了一个博弈论中非常著名的知识:纳什均衡(Nash Equilibrium,NE)。
点球博弈
我们来看如下一个博弈。在点球大战中,博弈的双方分别是点球方和守门员。点球方有3种策略,分别是向左踢(L),向中间踢(M),向右踢(R)。而守门员就两种选择,向左扑(l),向右扑(r)。具体的博弈用表格展示如下:
其中的数字表示概率,表示的是当点球方选择向左踢,守门员向左扑时,进球的概率是40%。
我们可以按照上节课同样的方法绘制图像。横坐标是守门员向右扑的概率,纵坐标是进球的概率。假设是线性的关系,我们可以绘制图像如下:
红线表示的是当我方选择向左射门时的预期收益。
蓝线—中路。
绿线—右路。
守门员向右扑救时,我方向左射门仍只有90%的概率,是因为考虑了10%的概率射飞。
根据上图分析可以知道,当门将向右扑的概率小于50%时,我们应该向右射门(即BR是R),当门将向右扑的概率大于50%时,我们应该向左射门(即BR是L)。我们发现无论在我方对守门员的预测(信念,belief)是什么,向中路射门(M)永远都不是BR。
结论
此时,我们得到了第一条结论,和严格劣势策略类似:不要选择在任何条件下都不是最佳应对的策略。
博弈变种
此博弈只是一个理想化的模型,我们稍微向着现实改进一些,例如考虑射门的力量及球速。
当向中间射门时,我们不太需要考虑精准度,自然就会提高射门的力量,球速变快,导致射门概率增大,增大10%。
而向两侧射门时,我们为了射准,会控制力量,导致球速变慢,从而留给守门员反应的时间更长,导致射门的概率变低,降低10%。
此时博弈的图会更改如下,如虚线所示:
那么此时,策略M也是BR,当门将向右扑的概率介于两个橙点之间时,向中间射门是一个最好的策略。
最佳应对
最佳应对(BR)的正式定义写作:
假设参与人的策略
是一个BR,是对手策略
的BR,那么在对手选择
时,对于
而言,
要弱优于所有其他策略
。即:
for all
in
然而在更广义的定义中,你是不知道对手的策略,而只能基于自己的猜测,也就是信念(我认为对手会出什么策略)。所以我们可以给出最佳策略更广义的定义:在参与人
持有信念
的情况下,
要弱优于所有其他策略
。那么策略
是参与人
在信念
下的BR。
for all
in
在点球博弈中,我方持有的信念p就是对方会以多大的概率向右扑,多大的概率向左扑
。此时我方向左边射门的收益可以写作:
商业合作博弈
参与者:两个参与人都是公司股东,各持有公司50%的股份,供应合伙关系;
策略:每个股东要选择对公司投入精力,以“小时”表示,策略集合=[0,4],即可选择0到4间任意实数“小时”的投入,这是一个连续区间,不是同于选数博弈中的只能选整数。
利润表达如下,
。b表达的是两个公司的协同程度。值得注意在利润中,有一项
,这一项表达的是两个参与者因为合作带来的收益,如果不存在这一项,单单就是
,那合作不合作就没有意义了,因为收益只和自己有关。
收益:我们可以定义参与者的收益为
。其中
是自身的投入,也就是成本。
我们作为参与者1,需要最大化自己的收益,即:
如果我们将看做是常数的话,那么
其实相对于
是一个开口向下的抛物线(二阶导数为负数,故存在最大值)。如果要求最值,我们先对
求一次一阶导数,并令其等于零。
此时求解出来的即为BR。
解得。
同理。
我们假设,那么根据策略的取值范围,可以画出参与者1的BR,此时横坐标是参与者1的策略,纵坐标是参与者2的策略:
此时参与者1的BR是红线。同理参与者2的BR就是蓝线。红线最上方的点表达的意思就是,当参与者2选择了,那么此时参与者1的最佳应对就是
。
根据BR图,我们发现无论参与者2选择什么策略,参与者1的BR只会是,根据上一博弈得到的结论,策略空间
和
在任何信念下都不是BR,所以要从策略空间中剔除,即下图红色的区域。
同理参与者2的策略空间和
在任何信念下都不是BR,所以也要从策略空间中剔除,即下图蓝色的区域。
那么此时双方的策略空间均被压缩在了中。灰色区域均是被剔除的策略空间。
我们将可用的策略空间进行放大:
我们发现此时的图像和之前是一样的,只是策略空间被缩小了。那么通过迭代剔除非最佳应对后,可用知道最后双方的策略都被压缩在交点上。那么此时我们联立两条直线的方程,即可得到交点:
此时双方都处在了自己的最佳应对上。这个交点就是著名的纳什均衡。
这里提到了一个很重要的理念,明明干的越多,公司收益越大,为什么大家都不努力干活呢?
正是因为合作的问题,单从个人考虑,其实是付出了100%的努力(边际成本),却只获得了50%的收益(边际收益),因为另外50%的收益被合作方给分走了。所以大家都会倾向于偷懒,等着别人努力,然后自己分别人的收益。
剪刀效应
根据纳什均衡点,协同程度
越小,每个人的BR就越小,每个人付出的努力也就越少,整体收益也越差。
此时红线和蓝线就像剪刀一样张开,交点越来越靠近。