博弈论系列之耶鲁公开课学习（二）：学会换位思考本集在内容上主要对上期的结论四进行了详细的讲述，同时对博弈进行了一些必要的

本集在内容上主要对上期的结论四进行了详细的讲述，同时对博弈进行了一些必要的数学符号和术语的引入，方便进行分析。老师同时还希望大家不要以为害怕数学而退缩。这门课不涉及什么数学，只是用符号代表会方便点，请大家不要害怕。

博弈的定义及符号表示

博弈由三个要素构成：参与者(player)，策略(strategies)，收益(payoffs)。

参与者(player)一般用 $i$ , $j$ 进行表示。

策略(strategies)一般用 $s_i$ 和 $s_j$ 表示。由于每个参与者都可能有多种不同的策略选择，所以我们记 $S_i$ 表示参与者 $i$ 的可选策略集合。例如在选数博弈中， $S_i=\{1,2,...,100\}$ ，成绩博弈中 $S_i=\{\alpha,\beta\}$ 。 $s$ 表示的一次博弈中的策略组合(a strategy profile)，表示某一次博弈每个参与者选中的策略。如果一次成绩博弈中我选择了策略 $\alpha$ ，我同桌选择了策略 $\beta$ ，那么 $s=\{\alpha，\beta\}$ 。

收益(payoff)一般用 $U$ 表示。 $U_i$ 就表示参与者 $i$ 的收益，受参与者 $1$ 一直到参与者 $N$ 的策略的影响，即受策略组合影响，故可以表示为 $U_i(s)$ 。

$s_{-i}$ 表示除参与者 $i$ 之外的所有人的策略，即 $s_i \bigcup s_{-i} = s$ 。

下面我们用一个例子来熟悉这个符号。博弈矩阵如下：

参与者 $1$ 的策略组合 $S_{1}=\{上,下\}$ ，参与者 $2$ 的策略组合 $S_2=\{左、中、右\}$ 。

参与者 $1$ 的收益 $U_1(上,中)=11$ ，参与者 $2$ 的收益 $U_2(上,中)=3$ 。

这个博弈矩阵我们可以发现，对于参与者 $2$ 而言，“中”的收益是严格优于“右”的，但是策略“中”并不是严格优势策略，因为严格优势策略是需要严格优于其他所有策略。

我们可以用数学符号来解释一下严格优势策略：

\exists s_i，\forall s_{i'} \in S_i，s_i \not= s_{i'}，\forall S_{-i}, U_i(s_{i}) > U_i(s_{i'})

如果你不喜欢数学，上面的公式可以忽略，符号其实只是用来简化描述的。简单文字表述下就是：如果存在一个策略 $s_i$ ，相比于参与者 $i$ 其他的任意策略 $s_{i'}$ ，无论对手选什么策略 $S_{-i}$ ，策略 $s_i$ 的收益总是优于 $s_{i'}$ ，那么策略 $s_i$ 就是最优的策略。

弱优势策略

此处讲的是汉尼拔将军率领部队穿越阿尔卑斯山纵横意大利的故事，为了建立一个博弈模型，汉尼拔将军的损失被轻描淡写了。根据波利比乌斯所述，走完全程的只有一万二千名利比亚步兵、八千名伊比利亚步兵以及不到六千名骑兵。与当初满怀向罗马复仇的强烈希望从罗纳河出发时的兵力相比，人数已不足半数了。有兴趣可以读读这位与亚历山大、恺撒、拿破仑并称欧洲四大名将的迦太基战神。（此段话直接摘自Apollo的笔记）

大家应该都已经能看懂博弈矩阵了，这里就不再赘述详细的描述了，直接分析走起！

对于defender(简化为 $i$ )，attacker(简化为 $j$ )而言，他们的策略组合为 $S_i=\{easy,hard\}$ , $S_j=\{easy,hard\}$ 。

对于 $i$ 而言， $U_i(easy,easy)=1 > U_i(hard,easy)=0$ ， $U_i(hard,hard)=2 > U_i(easy,hard)=1$ 。此时不存在严格优势策略。

对于 $j$ 而言， $U_j(easy,easy)=1 = U_j(hard,easy)=1$ ， $U_j(easy,hard)=2 > U_j(hard,hard)=0$ 。此时不存在严格优势策略，但是存在弱优势策略。即对于 $j$ 而言，策略easy的收益在任何情况是不差于策略hard，最差也是相同。弱优势策略用符号可以如下表示：

\forall s_{-i}， U_i(s_i,s_{-i}) \geq U_i(s_{i'},s_{-i})

\exists s_{-i}， U_i(s_i,s_{-i}) > U_i(s_{i'},s_{-i})

第二行表示说策略 $s_i$ 至少得存在一种情况是优于 $s_{i'}$ 的，如果任何情况都相等，虽然是不差于，但是也不好于，无优势可言。

选数博弈

最后，我们就回到了上节课的选数博弈上。我们可以用符号将博弈表示如下：

参与者 $i$ 。

策略集合 $S_i = \{1,2,...,100\}$ 。

收益 $U_i(s_i) = \begin{cases} 5 & 你选择的数等于全班平均数的2/3 \\ 0 & other \end{cases}$ 。

接下来我们对这个博弈进行分析，假设全班同学除了你都是铁憨憨选了 $100$ ，那么平均数的 $2/3$ 就是 $67$ ，也就是说你选择 $67$ 是最接近的。那么策略 $[68-100]$ 其实都是严格劣势策略，最高最高这个数也不可能超过 $67$ 。

可惜的是，你们班同学都不是铁憨憨，他们也通过分析得出策略 $[68-100]$ 是严格劣势策略，他们也不会选。此时，所有人的策略集合就从 $[1-100]$ 缩减成了 $[1-67]$ 。

我们接着往下分析发现在策略集合是[1-67]，那么严格劣势策略就变成了 $[45-67]$ 。本来 $[45-67]$ 在原来的博弈中并不是严格劣势策略，但是剔除了严格劣势策略 $[68-100]$ 后，它就变成了严格劣势策略。

剔除 $[68-100]$ ，表明我不是铁憨憨，是一个理性的人。剔除 $[45-67]$ ，表明我是站在对方的角度是思考的，我知道对方也不是铁憨憨，也是理性的人。

根据“我知道你知道我知道你知道我知道你知道这件事”定理(哈哈，我瞎编的)，迭代的剔除严格劣势策略后，最终的策略只会剩下 $s_i=1$ 。所以 $1$ 一个是最合适的策略。当然实际情况并不会这样，总会有不是绝对理性或者故意捣蛋的人。

公共知识

这里还有一个知识点叫做公共知识(common knowledge)。它和常识不一样，常识是所有人都知道。common knowledge就是所有人都知道，所有人都知道所有人都知道，所有人都知道所有人都知道所有人都知道……

比如举个例子，两个助教A和B在屋子里对着站着，每个人头上各带了一顶粉色的帽子，A和B互相能观察到对方的帽子颜色。此时“房间里至少有一个人带着粉色的帽子”这句话是常识，但不是公共知识。

比如对于A而言，他能看到B带着粉色的帽子，所以他知道“房间里至少有一个人带着粉色的帽子”。但是他不知道自己帽子的颜色，所以他不知道B知道“房间里至少有一个人带着粉色的帽子”。

对B也是同理。他们都只是自己知道，但是不知道对方也知道。