正态分布与中心极限定理
一、核心思想 无论总体分布是什么形状(只要均值和方差有限且样本独立同分布),当样本量 n n 足够大时,样本均值的抽样分布近似服从正态分布。
换句话说: 对任意总体分布,重复抽取多个样本,计算每个样本的均值 ,这些“样本均值”构成的分布会趋近于正态分布。
幂律分布
在幂律分布中,事件发生的概率与事件大小的某个负指数成比例。例如,我们熟悉的函数 就描述了 一种幂律。在这个幂律分布中,一个事件的概率与其大小成反比:事件越大,发生的可能性越小。因此, 在幂律分布中,小事件的数量要比大事件要多得多。
我们要讨论的第一个模型是优先连接模型。模型假设实体以相对于其比例的速度增长。优先连接模型 刻画了罗伯特·默顿所说的马太效应:更多导致更多。这个模型考虑了通过新移民到来而实现增长的人 口。新到达的人,要么加入现有的某个实体,要么自己创建新的实体。如果是前者,那么加入现有某个实 体的概率与该实体的大小成正比。 优先连接模型 一连串物体(人)一个接一个地到达。第一个到达者创建一个实体。后续每次有人到达时都应用 以下规则:在概率p (较小)的情况下,新到达者创造一个新的实体;在概率(1-p )的情况下,新 到达者加入现有的某个实体。加入某个特定实体的概率等于该实体的大小除以到目前为止所有到达者 的数量。
线性模型
在线性模型中,自变量x 的变化,会导致因变量y 的线性变化,用如下方程表示: y =mx +b 其中,m 等于直线的斜率,b 等于截距,即当自变量等于0时的因变量值。
多元线性模型
大多数现象都有不止一个因果变量和相关变量。一个人的幸福可以归因于身体健康、婚姻美满、子 女、宗教信仰和财富等。一栋房子的价值取决于室内面积、庭院大小、浴室数量、卧室数量、建筑类型以 及当地学校的质量等。在解释房子价值的时候,可以把所有这些变量都包含在回归中。但是必须记住,随 着添加更多的变量,也就需要更多的数据,不然无法得到显著的系数。
实力-运气方程
在讨论多元回归之前,先引入迈克尔·莫布森(Michael Mauboussin)的实力-运气方程,以便对多 元方程有一个直观的认识。 4 这个方程说的是,任何成功,无论是日常工作中的成功、体育运动上的成 功,还是游戏时的成功,都可以视为实力-运气的一个加权线性函数。 实力-运气方程 成功=a ×实力+(1-a )×运气 其中,a 位于区间[0,1]上,是技能的相对权重。
非线性模型
凸函数
凸函数的斜率是递增的:函数值随度量值的增加而增加。
凹函数
凹函数与凸函数相反。凹函数的斜率是递减的。具有正斜率的凹函数会呈现收益递减的特点:当我们 拥有的东西越来越多的时候,每个额外东西所能带来的价值会越来越少。几乎所有商品的效用或价值都呈 递减趋势。闲暇越多、金钱越多、冰激凌越多,甚至与爱人共度的时光越多,对我们的价值就越小。一个 直观的证据源于如下事实:包括巧克力在内,对任何事物的消费越多,我们就会越不觉得享受,同时愿意 为它付出的代价也就越少。 5 收益递减可以解释很多现象,包括为什么异地恋往往能够带来很大的幸福感。如果你每月只能与你的 伴侣相聚几个小时,那么每多一分钟都是一个莫大的惊喜。而在一个月不间断的相处后,幸福曲线的斜率 就会变平,从而额外增加的相聚时间就变得不那么重要了。 6 同样的逻辑也可以解释为什么房地产开发商 喜欢邀请人们在周末免费去他们的海滨公寓。在短暂的周末,你无法在海滩上享受足够长的时间,你会很 想把房子买下。相反,如果让你在海滩上连续待上十天半个月,你可能就会觉得无聊。
合作博弈 与 夏普利值
在合作博弈中,一个博弈参与者的“最后上车者价值”等于当他是最后一个加入团队的人时,他所能 增加的价值。“最后上车者价值”刻画了边际博弈参与者的价值。如果雇用4个人来搬运一张桌子,假设搬 运这张桌子产生的价值为10,并且要4个人一起动手才搬得动,那么每个人的“最后上车者价值”均为 10。如果只需要三个人就可以搬动这张桌子,那么每个人的“最后上车者价值”均为零。这里需要注意的 是,“最后上车者价值”不一定是博弈的总价值相加。特别是,如果价值函数表现出了规模收益递减的性 质,那么“最后上车者价值”的总和将小于博弈的总价值;如果增加的价值表现出了规模收益递增的性 质,那么“最后上车者价值”的总和将超过博弈的总价值。
一个博弈参与者的夏普利值,等于他在所有可能加入的联盟的次序下对联盟边际贡献的平均值。换句 话说,我们要在想象中按顺序将博弈参与者加入联盟中并计算每个博弈参与者为每个序列增加的价值。例 如,考虑一家同时在西班牙和法国运营的小公司,它至少需要一位会讲法语的人和一位会讲西班牙语的人 开展日常业务。假设该公司有三名员工:一名会讲西班牙语的人、一名会讲法语的人和一名既会讲法语又 会讲西班牙语的双语人士。 现在假设,这个合作博弈为任何一位能讲法语和西班牙语的人分配了1 200美元的价值。如果该公司能 够运营,这个金额就等于公司每日的收入。如果任何两名员工来上班了,那么第三名员工就不是必需的。 因此,在这个例子中,每个博弈参与者的“最后上车者价值”为零。
为了计算只会讲法语的那个人的夏普利值,我们要考虑这三个人来上班的所有6种可能的次序。在这6 种次序中,只有在一种情况下,也就是只会讲西班牙语的人第一个到,然后这个只会讲法语的人第二个到 时,这个只会讲法语的人才增加了价值。因此,这个只会讲法语的人的夏普利值就等于1/6乘以1 200美 元,即200美元。与此类似,只会讲西班牙语的那个人只有当他第二个到且只会讲法语的那个人第一个到 时,才能增加价值,因此他的夏普利值也等于200美元。而在其他四个次序中,既会讲法语又会讲西班牙 语的人第一个到或者第二个到都能增加价值,因此,他的夏普利值等于800美元。所有这三个人的夏普利 值总和等于1 200美元,也就是这个博弈的总价值。
给定合作博弈{N ,V },夏普利值的定义如下: N 个博弈参与者加入联盟的次序有N !个,让O 代表这所有N !个次序。对于O 中的每一个次 序,将博弈参与者i 增加的价值定义为当博弈参与者i 加入时价值函数发生的变化。博弈参与者i 的 夏普利值等于他在O 中所有次序上增加价值的平均值。
网络模型
理论模型通常假设某种特定的网络结构。有的研究者偏好假设随机网络,而有的研究者则偏好假设规 则的地理网络,例如这样的网络:节点排列成圆形并且每个节点在每个方向上都连接到最近的节点。这也 是第二种常见的网络,有一种地理网络将节点排列在棋盘上,并让每个节点与自己东、南、西、北的邻居 相连。大多数常见的地理网络都具有较低的度,即节点仅连接到本地邻居,并且具有相对较大的平均路径 长度。在地理网络上,介数和聚类系数不会有变化。 第三种常见的网络是幂律网络,这种网络的度分布是幂律的。少数节点有许多连接,同时大多数节点 的连接则非常少。第四种常见的网络是小世界网络,它结合了地理网络和随机网络的特征。 5 要想构建一 个小世界网络,可以从一个地理网络开始,然后进行“重新布线”,方法是随机地选择一条边并把这条边 所连接的其中一个节点替换为一个随机的节点。如果“重新布线”的概率等于零,所拥有的就是一个地理 网络;如果“重新布线”的概率等于1,那么就有了一个随机网络;而当概率介于这两者之间时,就会得到 一个小世界网络,以小集群区别于通过随机链接连接到其他集群的地理网络。社交网络看起来类似于小世 界,每个人都有一群朋友,以及若干随机的朋友。
广播模型、扩散模型和传染模型
广播模型 I t +1 =I t +P broad ×S t 其中,P broad 表示广播概率,I t 和S t 分别等于时间t 上的感染者(知情者)和易感者的数字 初始状态为I 0 =0,且S 0 =N POP 。
熵:对不确定性建模
熵是对不确定性的一个正式测度。利用熵,我们可以证明不确定性、信息内 容与惊喜之间的等价性。低熵对应于低不确定性,同时揭示的信息很少。如果某个结果发生在低熵系统 中,例如太阳从东方升起,我们并不会感到惊讶。而在高熵系统中,比如在抽奖时抽中了某个数字,结果 是不确定的,并且实现的结果能够揭示信息。在这个过程中,我们经历了惊喜。
随机游走
伯努利瓮模型 每一次,从一个装了G 个灰球和W 个白球的瓮中随机抽取一个球,结果等于抽取出来的球的颜 色。在下一次抽取之前,球要先放回瓮中。令 表示灰球的比例。在抽取N 次的情况下, 可以计算出抽取出来的灰球的期望数量N G ,及其标准差
接下来讨论简单随机游走模型,它建立在伯努利瓮模型的基础上,并将过去结果的和保持下来。我们 将初始值,也就是模型的初始状态设置为零。如果我们抽取出一个白球,就在总数上加1;如果抽取出一个 灰球,就从总数中减1。模型在任何时候的状态都等于先前结果的总和,也就是抽取出来的白球总数减去抽 取出来的灰球总数的值。 简单随机游走模型 V t +1 =V t +R (-1,1) 其中,V t 表示时间t 上的随机游走值,V 0 =0,R (-1,1)是一个可能等于-1或1的随机变量。在 任何时间段内,这个随机游走的期望值都等于零,且标准差为 ,其中的t 等于周期数。
路径依赖模型
波利亚过程利用伯努利瓮模型的扩展来刻画正反馈效应。在波利亚过程中,我们会往瓮中加入与抽取 出来的球相匹配的球,这个过程会产生结果路径依赖(outcome path dependence)
波利亚过程可以用来刻画多种多样的社会和经济现象。一个人选择学习打网球,还是打壁球,可能取 决于其他人的选择。如果更多的朋友选择学习打网球,那么这个人就更有可能也选择学习打网球,因为这 会增加他找到伙伴打比赛的机会。与此类似,一个人决定购买什么类型的软件、学习哪种语言或购买哪款 智能手机,也可能取决于他的朋友以前做出的选择。类似的逻辑同样适用于企业对技术标准的选择,它们 可能会根据其他企业的选择来做出选择。
均衡过程 第二个模型是均衡过程,它的假设与波利亚过程恰恰相反。在抽取出某种颜色的球后,要加入一个相 反颜色的球。如果在前两个周期都抽取出了白球,那么瓮中将包含三个灰球和一个白球,从而导致下一周 期抽取出灰球的概率增大为3/4。这个过程也会产生路径依赖的结果,因为任何一个周期结果的可能性取 决于过去的结果的历史。但是,它不会产生依赖于路径的均衡。从长远来看,瓮收敛为每种颜色的球的比 例都相同。
局部互动模型
局部多数模型 局部多数模型假设元胞是排列在棋盘上的。 1 每个元胞处于两种状态中的一种:开或关。初始时,我 们随机地给元胞分配状态,此后,元胞的状态取决于它“邻居”的状态。邻居可以通过多种方式加以定 义。我们将元胞C的邻居定义为位于它东、南、西、北的4个元胞以及4个对角上的相邻元胞,因此它的领 域大小为8。
由于这种互动只作用于局部,因此出现了次优均衡,即受挫状态。相反,如果元胞是根据全局多数原 则来匹配的,那么很快所有元胞都会处于相同的状态。这种观点意味着,创建共同行为可能需要影响更加 广泛的网络。如果人们只在局部与自己的邻居协调,他们就会创造出各种各样的行为。因此矛盾的是,恰 恰是协调导致了多样性。