博弈论系列之耶鲁公开课学习(二):学会换位思考

1,107 阅读6分钟

  本集在内容上主要对上期的结论四进行了详细的讲述,同时对博弈进行了一些必要的数学符号和术语的引入,方便进行分析。老师同时还希望大家不要以为害怕数学而退缩。这门课不涉及什么数学,只是用符号代表会方便点,请大家不要害怕。

博弈的定义及符号表示

  博弈由三个要素构成:参与者(player)策略(strategies)收益(payoffs)

  参与者(player)一般用i,j进行表示。

  策略(strategies)一般用s_is_j表示。由于每个参与者都可能有多种不同的策略选择,所以我们记S_i表示参与者i的可选策略集合。例如在选数博弈中,S_i=\{1,2,...,100\},成绩博弈中S_i=\{\alpha,\beta\}s表示的一次博弈中的策略组合(a strategy profile),表示某一次博弈每个参与者选中的策略。如果一次成绩博弈中我选择了策略\alpha,我同桌选择了策略\beta,那么s=\{\alpha,\beta\}

  收益(payoff)一般用U表示。U_i就表示参与者i的收益,受参与者1一直到参与者N的策略的影响,即受策略组合影响,故可以表示为U_i(s)

  s_{-i}表示除参与者i之外的所有人的策略,即s_i \bigcup s_{-i} = s

  下面我们用一个例子来熟悉这个符号。博弈矩阵如下:

  参与者1的策略组合S_{1}=\{上,下\},参与者2的策略组合S_2=\{左、中、右\}

  参与者1的收益U_1(上,中)=11,参与者2的收益U_2(上,中)=3

  这个博弈矩阵我们可以发现,对于参与者2而言,“中”的收益是严格优于“右”的,但是策略“中”并不是严格优势策略,因为严格优势策略是需要严格优于其他所有策略。

  我们可以用数学符号来解释一下严格优势策略:

\exists s_i,\forall s_{i'} \in S_i,s_i \not= s_{i'},\forall S_{-i}, U_i(s_{i}) >  U_i(s_{i'})

  如果你不喜欢数学,上面的公式可以忽略,符号其实只是用来简化描述的。简单文字表述下就是:如果存在一个策略s_i,相比于参与者i其他的任意策略s_{i'},无论对手选什么策略S_{-i},策略s_i的收益总是优于s_{i'},那么策略s_i就是最优的策略。

弱优势策略

  此处讲的是汉尼拔将军率领部队穿越阿尔卑斯山纵横意大利的故事,为了建立一个博弈模型,汉尼拔将军的损失被轻描淡写了。根据波利比乌斯所述,走完全程的只有一万二千名利比亚步兵、八千名伊比利亚步兵以及不到六千名骑兵。与当初满怀向罗马复仇的强烈希望从罗纳河出发时的兵力相比,人数已不足半数了。有兴趣可以读读这位与亚历山大、恺撒、拿破仑并称欧洲四大名将的迦太基战神。(此段话直接摘自Apollo的笔记)

  大家应该都已经能看懂博弈矩阵了,这里就不再赘述详细的描述了,直接分析走起!

  对于defender(简化为i),attacker(简化为j)而言,他们的策略组合为S_i=\{easy,hard\},S_j=\{easy,hard\}

  对于i而言,U_i(easy,easy)=1 > U_i(hard,easy)=0U_i(hard,hard)=2 > U_i(easy,hard)=1。此时不存在严格优势策略。

  对于j而言,U_j(easy,easy)=1 = U_j(hard,easy)=1U_j(easy,hard)=2 > U_j(hard,hard)=0。此时不存在严格优势策略,但是存在弱优势策略。即对于j而言,策略easy的收益在任何情况是不差于策略hard,最差也是相同。弱优势策略用符号可以如下表示:

\forall s_{-i}, U_i(s_i,s_{-i}) \geq U_i(s_{i'},s_{-i})
\exists s_{-i}, U_i(s_i,s_{-i}) > U_i(s_{i'},s_{-i})

  第二行表示说策略s_i至少得存在一种情况是优于s_{i'}的,如果任何情况都相等,虽然是不差于,但是也不好于,无优势可言。

选数博弈

  最后,我们就回到了上节课的选数博弈上。我们可以用符号将博弈表示如下:

  参与者i

  策略集合S_i = \{1,2,...,100\}

  收益U_i(s_i) = \begin{cases}  
 5 & 你选择的数等于全班平均数的2/3 \\
 0 & other
\end{cases}

  接下来我们对这个博弈进行分析,假设全班同学除了你都是铁憨憨选了100,那么平均数的2/3就是67,也就是说你选择67是最接近的。那么策略[68-100]其实都是严格劣势策略,最高最高这个数也不可能超过67

  可惜的是,你们班同学都不是铁憨憨,他们也通过分析得出策略[68-100]是严格劣势策略,他们也不会选。此时,所有人的策略集合就从[1-100]缩减成了[1-67]

  我们接着往下分析发现在策略集合是[1-67],那么严格劣势策略就变成了[45-67]。本来[45-67]在原来的博弈中并不是严格劣势策略,但是剔除了严格劣势策略[68-100]后,它就变成了严格劣势策略。

  剔除[68-100],表明我不是铁憨憨,是一个理性的人。   剔除[45-67],表明我是站在对方的角度是思考的,我知道对方也不是铁憨憨,也是理性的人。

  根据“我知道你知道我知道你知道我知道你知道这件事”定理(哈哈,我瞎编的),迭代的剔除严格劣势策略后,最终的策略只会剩下s_i=1。所以1一个是最合适的策略。当然实际情况并不会这样,总会有不是绝对理性或者故意捣蛋的人。

公共知识

  这里还有一个知识点叫做公共知识(common knowledge)。它和常识不一样,常识是所有人都知道。common knowledge就是所有人都知道,所有人都知道所有人都知道,所有人都知道所有人都知道所有人都知道……

  比如举个例子,两个助教A和B在屋子里对着站着,每个人头上各带了一顶粉色的帽子,A和B互相能观察到对方的帽子颜色。此时“房间里至少有一个人带着粉色的帽子”这句话是常识,但不是公共知识。

  比如对于A而言,他能看到B带着粉色的帽子,所以他知道“房间里至少有一个人带着粉色的帽子”。但是他不知道自己帽子的颜色,所以他不知道B知道“房间里至少有一个人带着粉色的帽子”。

  对B也是同理。他们都只是自己知道,但是不知道对方也知道。