博弈论系列之耶鲁公开课学习(四):足球比赛与商业合作之最佳应对

1,186 阅读6分钟

  上节课通过一个博弈已经引出了最佳应对(Best Response,BR)。本节课通过点球博弈会对最佳应对进行更深入的探讨,并给出定义。同时通过介绍商业合作博弈,引入了一个博弈论中非常著名的知识:纳什均衡(Nash Equilibrium,NE)。

点球博弈

  我们来看如下一个博弈。在点球大战中,博弈的双方分别是点球方和守门员。点球方有3种策略,分别是向左踢(L),向中间踢(M),向右踢(R)。而守门员就两种选择,向左扑(l),向右扑(r)。具体的博弈用表格展示如下:

  其中的数字表示概率,U_1(L,l)=4表示的是当点球方选择向左踢,守门员向左扑时,进球的概率是40%。

  我们可以按照上节课同样的方法绘制图像。横坐标是守门员向右扑的概率,纵坐标是进球的概率。假设是线性的关系,我们可以绘制图像如下:

  红线表示的是当我方选择向左射门时的预期收益。
  蓝线—中路。
  绿线—右路。

  守门员向右扑救时,我方向左射门仍只有90%的概率,是因为考虑了10%的概率射飞。

  根据上图分析可以知道,当门将向右扑的概率小于50%时,我们应该向右射门(即BR是R),当门将向右扑的概率大于50%时,我们应该向左射门(即BR是L)。我们发现无论在我方对守门员的预测(信念,belief)是什么,向中路射门(M)永远都不是BR。

结论

  此时,我们得到了第一条结论,和严格劣势策略类似:不要选择在任何条件下都不是最佳应对的策略

博弈变种

  此博弈只是一个理想化的模型,我们稍微向着现实改进一些,例如考虑射门的力量及球速。

  当向中间射门时,我们不太需要考虑精准度,自然就会提高射门的力量,球速变快,导致射门概率增大,增大10%。
  而向两侧射门时,我们为了射准,会控制力量,导致球速变慢,从而留给守门员反应的时间更长,导致射门的概率变低,降低10%。

  此时博弈的图会更改如下,如虚线所示:

  那么此时,策略M也是BR,当门将向右扑的概率介于两个橙点之间时,向中间射门是一个最好的策略。

最佳应对

  最佳应对(BR)的正式定义写作: 假设参与人i的策略\hat s_i是一个BR,是对手策略s_{-i}的BR,那么在对手选择s_{-i}时,对于i而言,\hat s_i要弱优于所有其他策略s_i'。即:

U_i(\hat s_i, s_{-i}) \geq U_i(s_i',s_{-i})  for all s_i' in S_i

和之前的严格优势策略的定义对比,for all修饰的是对手的所有策略,而现在修饰的是我方所有的其他策略。

  然而在更广义的定义中,你是不知道对手的策略s_{-i},而只能基于自己的猜测,也就是信念(我认为对手会出什么策略)。所以我们可以给出最佳策略更广义的定义:在参与人i持有信念p的情况下,\hat s_i要弱优于所有其他策略s_i'。那么策略\hat s_i是参与人i在信念p下的BR。

EU_i(\hat s_i, p) \geq EU_i(s_i',p)  for all s_i' in S_i

  在点球博弈中,我方持有的信念p就是对方会以多大的概率向右扑p(r),多大的概率向左扑p(l)。此时我方向左边射门的收益可以写作:

EU_i(L,p) = p(l) \times U_i(L,l) + p(r) \times U_i(L,r)

商业合作博弈

  参与者:两个参与人都是公司股东,各持有公司50%的股份,供应合伙关系;
  策略:每个股东要选择对公司投入精力,以“小时”表示,策略集合=[0,4],即可选择0到4间任意实数“小时”的投入,这是一个连续区间,不是同于选数博弈中的只能选整数。
  利润表达如下4 \times [s_1+s_2+bs_1s_2],b \in [0,\frac{1}{4}]。b表达的是两个公司的协同程度。值得注意在利润中,有一项s_1s_2,这一项表达的是两个参与者因为合作带来的收益,如果不存在这一项,单单就是s_1+s_2,那合作不合作就没有意义了,因为收益只和自己有关。   收益:我们可以定义参与者的收益为U_1(s_1,s_2) = \frac{1}{2} \times 4 \times [s_1+s_2+bs_1s_2] - s_1^2。其中s_1^2是自身的投入,也就是成本。

  我们作为参与者1,需要最大化自己的收益,即:

\mathop{Max}\limits_{s_1}2 \times [s_1+s_2+bs_1s_2] - s_1^2

如果我们将s_2看做是常数的话,那么U_1其实相对于s_1是一个开口向下的抛物线(二阶导数为负数,故存在最大值)。如果要求最值,我们先对U_1求一次一阶导数,并令其等于零。

2(1+bs_2)-2s_1=0

此时求解出来的\hat s_1即为BR。
  解得s_1 = 1+bs_2
  同理s_2 = 1+bs_1
  我们假设b=\frac{1}{4},那么根据策略的取值范围,可以画出参与者1的BR,此时横坐标是参与者1的策略,纵坐标是参与者2的策略:

此时参与者1的BR是红线。同理参与者2的BR就是蓝线。红线最上方的点表达的意思就是,当参与者2选择了s_2=4,那么此时参与者1的最佳应对就是s_1=1+\frac{1}{4}\times4=2

  根据BR图,我们发现无论参与者2选择什么策略,参与者1的BR只会是[1,2],根据上一博弈得到的结论,策略空间[0,1)(2,4]在任何信念下都不是BR,所以要从策略空间中剔除,即下图红色的区域。

  同理参与者2的策略空间[0,1)(2,4]在任何信念下都不是BR,所以也要从策略空间中剔除,即下图蓝色的区域。

  那么此时双方的策略空间均被压缩在了[1,2]中。灰色区域均是被剔除的策略空间。

  我们将可用的策略空间进行放大:

  我们发现此时的图像和之前是一样的,只是策略空间被缩小了。那么通过迭代剔除非最佳应对后,可用知道最后双方的策略都被压缩在交点上。那么此时我们联立两条直线的方程,即可得到交点:

s_1=s_2=\frac{1}{1-b}

  此时双方都处在了自己的最佳应对上。这个交点就是著名的纳什均衡

  这里提到了一个很重要的理念,明明干的越多,公司收益越大,为什么大家都不努力干活呢?
  正是因为合作的问题,单从个人考虑,其实是付出了100%的努力(边际成本),却只获得了50%的收益(边际收益),因为另外50%的收益被合作方给分走了。所以大家都会倾向于偷懒,等着别人努力,然后自己分别人的收益。

剪刀效应

  根据纳什均衡点s_1=s_2=\frac{1}{1-b},协同程度b越小,每个人的BR就越小,每个人付出的努力也就越少,整体收益也越差。

此时红线和蓝线就像剪刀一样张开,交点越来越靠近(1,1)