本集在内容上主要对上期的结论四进行了详细的讲述,同时对博弈进行了一些必要的数学符号和术语的引入,方便进行分析。老师同时还希望大家不要以为害怕数学而退缩。这门课不涉及什么数学,只是用符号代表会方便点,请大家不要害怕。
博弈的定义及符号表示
博弈由三个要素构成:参与者(player),策略(strategies),收益(payoffs)。
参与者(player)一般用,
进行表示。
策略(strategies)一般用和
表示。由于每个参与者都可能有多种不同的策略选择,所以我们记
表示参与者
的可选策略集合。例如在选数博弈中,
,成绩博弈中
。
表示的一次博弈中的策略组合(a strategy profile),表示某一次博弈每个参与者选中的策略。如果一次成绩博弈中我选择了策略
,我同桌选择了策略
,那么
。
收益(payoff)一般用表示。
就表示参与者
的收益,受参与者
一直到参与者
的策略的影响,即受策略组合影响,故可以表示为
。
表示除参与者
之外的所有人的策略,即
。
下面我们用一个例子来熟悉这个符号。博弈矩阵如下:
参与者的策略组合
,参与者
的策略组合
。
参与者的收益
,参与者
的收益
。
这个博弈矩阵我们可以发现,对于参与者而言,“中”的收益是严格优于“右”的,但是策略“中”并不是严格优势策略,因为严格优势策略是需要严格优于其他所有策略。
我们可以用数学符号来解释一下严格优势策略:
如果你不喜欢数学,上面的公式可以忽略,符号其实只是用来简化描述的。简单文字表述下就是:如果存在一个策略,相比于参与者
其他的任意策略
,无论对手选什么策略
,策略
的收益总是优于
,那么策略
就是最优的策略。
弱优势策略
此处讲的是汉尼拔将军率领部队穿越阿尔卑斯山纵横意大利的故事,为了建立一个博弈模型,汉尼拔将军的损失被轻描淡写了。根据波利比乌斯所述,走完全程的只有一万二千名利比亚步兵、八千名伊比利亚步兵以及不到六千名骑兵。与当初满怀向罗马复仇的强烈希望从罗纳河出发时的兵力相比,人数已不足半数了。有兴趣可以读读这位与亚历山大、恺撒、拿破仑并称欧洲四大名将的迦太基战神。(此段话直接摘自Apollo的笔记)
大家应该都已经能看懂博弈矩阵了,这里就不再赘述详细的描述了,直接分析走起!
对于defender(简化为),attacker(简化为
)而言,他们的策略组合为
,
。
对于而言,
,
。此时不存在严格优势策略。
对于而言,
,
。此时不存在严格优势策略,但是存在弱优势策略。即对于
而言,策略easy的收益在任何情况是不差于策略hard,最差也是相同。弱优势策略用符号可以如下表示:
第二行表示说策略至少得存在一种情况是优于
的,如果任何情况都相等,虽然是不差于,但是也不好于,无优势可言。
选数博弈
最后,我们就回到了上节课的选数博弈上。我们可以用符号将博弈表示如下:
参与者。
策略集合。
收益。
接下来我们对这个博弈进行分析,假设全班同学除了你都是铁憨憨选了,那么平均数的
就是
,也就是说你选择
是最接近的。那么策略
其实都是严格劣势策略,最高最高这个数也不可能超过
。
可惜的是,你们班同学都不是铁憨憨,他们也通过分析得出策略是严格劣势策略,他们也不会选。此时,所有人的策略集合就从
缩减成了
。
我们接着往下分析发现在策略集合是[1-67],那么严格劣势策略就变成了。本来
在原来的博弈中并不是严格劣势策略,但是剔除了严格劣势策略
后,它就变成了严格劣势策略。
剔除,表明我不是铁憨憨,是一个理性的人。
剔除
,表明我是站在对方的角度是思考的,我知道对方也不是铁憨憨,也是理性的人。
根据“我知道你知道我知道你知道我知道你知道这件事”定理(哈哈,我瞎编的),迭代的剔除严格劣势策略后,最终的策略只会剩下。所以
一个是最合适的策略。当然实际情况并不会这样,总会有不是绝对理性或者故意捣蛋的人。
公共知识
这里还有一个知识点叫做公共知识(common knowledge)。它和常识不一样,常识是所有人都知道。common knowledge就是所有人都知道,所有人都知道所有人都知道,所有人都知道所有人都知道所有人都知道……
比如举个例子,两个助教A和B在屋子里对着站着,每个人头上各带了一顶粉色的帽子,A和B互相能观察到对方的帽子颜色。此时“房间里至少有一个人带着粉色的帽子”这句话是常识,但不是公共知识。
比如对于A而言,他能看到B带着粉色的帽子,所以他知道“房间里至少有一个人带着粉色的帽子”。但是他不知道自己帽子的颜色,所以他不知道B知道“房间里至少有一个人带着粉色的帽子”。
对B也是同理。他们都只是自己知道,但是不知道对方也知道。