相关性和相关系数
相关性
相关性体现的是两个现象之间相互关联的程度.
例如在夏天,温度的高低与冰淇淋的销量就存在相关性,当温度升高时,冰淇淋的销量也会相应提高。
如果其中一个变量的改变引发另一个变量朝着相同的方向变化,那么我们说这两个变量存在正相关性,就比如身高与体重之间的关系,(一般来说)个子高的人体重会重些,个子矮的人体重会轻些。
如果一个变量的改变引发另一个变量朝着相反的方向变化,那么这两个变量就存在负相关性,比如锻炼与体重。
。两个变量存在正相关或负相关的关系,这并不代表其中一个变量的改变是由另一个变量的变化引起的。
相关系数
相关系数定义为一个区间为-1到1的常数。
如果相关系数为1,即完全相关,表示一个变量的任何改变都会导致另一个变量朝着相同方向发生等量的改变。
如果相关系数为-1,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等 量的改变。
相关系数越接近1或-1, 变量间的关联性就越强。如果相关系数为零(或者接近零),则意味着变量之间不存在有意义的联系,就比如一个人的鞋码和高考成绩之间的关系。
相关系数不受变量单位的限制。我们可以计算身高和体重之间的关联性,哪怕身高和体重的单位分别是英寸和磅。我们甚至还可以计算出高中生家里的电视机数量和他们的考试成绩之间的关联性。这就是相关系数能够为我们完成的一件非常神奇的事情:将大量芜杂无序、单位不统一的复杂数据(就比如上面的身高、体重散点分布)加工成一个简洁、优雅的描述性数据。
相关系数公式
概率与期望值
施利茨酿酒公司的故事
美国约瑟夫·施利茨酿酒公司在计划在超级碗中场休息做营销广告.他们计划召集100名拥簇另一个啤酒的爱好者们进行现场品鉴的活动, 现场会提供两种啤酒, 没有标签, 参加者需要在品尝完后, 选出更喜欢哪一种啤酒.
活动结束后, 事实是约有50%的人选择更喜欢施利茨酿酒公司的啤酒, 这一结论起到了很好的效果, 毕竟有50%另一品牌的拥簇者喜欢自己公司的啤酒, 没有比这更好的广告了.
这场营销能成功的前提是在那个年代, 各家啤酒其实品尝起来味道差不多, 如果去掉标签, 很难品尝出具体的是哪一种. 剩下的就是概率学的魅力了. 基于这个前提, 可以认为参加者选择任意一个品牌啤酒的概率为50%.
此时100位参加者全部选择自己喜欢的品牌, 而不是施利茨酿酒的概率为1/1267650600228229401496703205376,这可能比这些人在中场休息时被陨石砸中的概率还低。
概率
概率学是一门研究不确定事件和结果的学问。概率并不会确凿地告诉我们将会发生什么,但我们通过概率计算能够知道很有可能发生什么、不太可能发生什么。聪明的人会使用这类数据为自己的事业和生活指明方向.
投资股市存在着不确定性,抛硬币同样也存在着不确定性,因为有的时候你得到的是硬币的正面,有的时候是硬币的反面。连续4次抛一枚硬币更是增加了这种不确定性,因为每一次都有可能是正面或反面,如果你手里有一枚硬币并且连续抛了4次,我事先无从得知4次的准确结果(你也不能),但我可以事先告诉你一些结果(如两个正面、两个反面)出现的概率要大于另一些(如4个正面)。
许多事件的概率是明确的,如抛一枚标准硬币结果是正面的概率为1/2,掷一粒骰子得到1点的概率为1/6,还有一些事件的概率能够从过去的数据中推导出来。在美国职业橄榄球比赛中,触地得分后踢定位球再得一分的平均概率为0.94,也就是说,每100个定位球中有94个会成功。得出这些概率需要经过大量事实证明, 当试验次数足够多的时候, 就会认为事情发生的频率等于它的概率.当然,这一数据会随着不同球员、不同天气环境以及其他因素的改变而有所不同,但不会发生剧烈变化。在获得并信任此类信息的前提下,决策者常常能够看清风险、作出决定。
举个例子,澳大利亚运输安全局发布了一份有关乘坐 不同交通工具致死风险的量化报告,大家都觉得飞行非常可怕,但实际上商业航空旅行的风险是微乎其微的。澳大利亚自20世纪60年代起就再没有发生过一起商业航空致死事故,因此航空旅行每一亿公里的致死率基本为0。汽车每一亿公里旅行的致死率为0.5,真正吓人的是摩托车的致死率,如果你立志成为一名器官捐献者,那么你就选择摩托车出行吧,因为摩托车的致死率比汽车整整高出35倍。
独立事件
两个事件A和B, 如果A事件发生的概率和B事件无关, 那么A和B是独立事件, 反之亦然, 此时A和B事件可以是描述同一动作的.
例如A事件表示第一次扔硬币正面朝上, B事件表示第二次扔硬币正面朝上, 此时A, B事件发生的概率是无关的, 这两个事件属于独立事件.
如果是A事件表示今天下雨, B事件表示明天下雨, 这两个事件就不是独立事件, 因为下雨通常会持续好几天. 因此B事件的发生和A事件发生的概率是有关的.
两个独立事件连续发生的概率, 就是两个事件概率相乘. 因此连续4次抛同一枚标准硬币结果是正面的概率为1/16.
当前的结果是多个独立事件结果的概率, 是多个独立事件概率之和(也就是A出现或者B出现).例如掷骰子出现1点, 2点, 或3点的概率, 就是1/6 + 1/6 + 1/6 = 1/2.
不要想当然的认为事件之间没联系
抛一次硬币得到正面的概率为1/2, 抛两次硬币结果都为正面的概率为1/4, 因为这两个事件是独立的,因此两次都得到正面的概率为各自概率的乘积。在领会了这一强大的概率学要点之后,你被正式提升为某大型航空公司的风险管理总监,你的助理告诉你越(大西)洋航班的引擎出现故障的概率为10万分之一,考虑到此类航班的班次较多,因此这样的风险还是应该极力避免。可喜的是,每一架越洋航班都配有至少两个引擎,你的助理计算得出在大西洋上空两个引擎都出现故障的概率为(1/100000)^2,即100亿分之一——一个理论上安全的风险。 这个时候,你作为风险管理总监,就可以让你的助理收拾东西回家,以后再也不用来了。因为两个引擎发生故障并不是彼此独立的事件,如果飞机在起飞时迎面飞来一群天鹅,那么两个引擎都有可能出现损坏。同样的,许多其他的因素也会对飞机引擎的性能造成影响,如天气变化、维护不当等。如果一个引擎出现了故障,那么第二个引擎出现故障的概率肯定要大大高于10万分之一。
不要想当然的任务事件之间有联系
人们犯的另一种常见错误是,面对相互独立的事件浑然不觉,甚至还将它们作为相关事件进行处理。假设你正在一家赌场里,你会看到赌客们红着眼睛盯着骰子或扑克牌,嘴里念念有词“总该轮到我赢了吧”。如果轮盘球已经连续5次停在黑色区域了,有人就会想当然地认为下一次肯定会停在红色区域,大错特错! 轮盘球停在红色区域的概率一直都没变,应该是16/38,这就是“赌徒谬论”。事实上,就算你连续抛1000000次硬币,并且结果全都是正面朝上,第1000001次抛硬币出现反面的概率依然为1/2。两个事件的统计独立性的定义正是其中一个事件的结果对另一个事件的结果不存在任何影响。就算你觉得从统计学的角度来解释不够有说服力,你也可以从物理的角度问问自己:一枚硬币连续抛几次的结果都是反面朝上,怎么做才能使它下一次抛出的结果是正面朝上?
密码为什么要数字, 字母, 特殊符号的组合
假设你的开机密码为6位,而且用的全是数字,那么总共有10x10x10x10x10x10=10^6种数字排列组合,不要以为这种组合很复杂,对于计算机来说,不到一秒钟,就可以将这些数字排列组合全都试一遍。
所以,当你将字母加入到密码设置的范围内,那样的话,6位密码就有了36种选择:26个字母加上10个数字。可能组合出的密码数量也上升到了36x36x36x36x36x36=36^6个,超过20亿个。如果系统要求将密码长度增加为8位,而且强烈建议你使用#、@、%、!等符号, 那么可能组合出的密码数量便跃升至46^8,超过20万亿个。
期望
期望即事件概率与收益相乘, 然后求和得到.
例如一个掷骰子的游戏, 掷1点得到1美元, 掷2点得到2美元, 以此类推, 掷6点得6美元, 期望就是
大数定律
大数定律即随着试验次数的增多, 结果的平均值会越来约接近期望值.
根据大数定律, 我们就会发现期望是一个非常有意义的数字, 可以根据期望和你的投入来判断这件事情是否值得. 例如上文的掷骰子游戏, 如果每玩一次3美元的话, 我们就可以参与, 因为最后得到的平均报酬会在3.5美元, 但如果是4美元一次, 你可能刚开始能赚一点, 但是最后一定会亏的.这个保险公司为什么能赚钱是一样的.
保险公司清楚地知道合同里每一项条款可能会带来的赔偿金额,行业术语叫作“预期损失”。这和期望值是完全相同的概念,只不过是套上了保险的外衣。假设车的赔偿额度为4万美元,每年被盗的概率是1/1000,那么该车的年预期损失为40美元,车险保费组成中盗窃险种的定价就应该高于40美元,这样看来,保险公司和赌场、伊利诺伊州彩票的性质是一样的,它们都需要付出,但从长期来看,得到的肯定要比付出的多。
期望值低一定不要去尝试? 期望值高就值得去实践吗?
当你的投入是大于期望值的时候, 如果你不是希望赌博来获益的话, 就应该终止这种行为. 从长期看来, 你的付出是大于回报的.
但是当期望值大于你的投入的时候, 你还是需要区根据概率来决定是不是要进行投入, 因为某些事件是极小概率获得大量收益的, 但是因为概率比较小, 需要你仔细考虑. 假设你的一个朋友建议你向一家研究中心投资100万美元用于开发男性防脱发产品,你或许会问成功的概率有多大,而你的朋友的回答很复杂。由于这是一个研发项目,因此研发团队研制成功的概率只有30%,如果最终研制产品失败了,那么你 将收回25万美元,因为这部分资金原本是留着用于市场推广(用户测试、广告宣传等)的;即使最终产品研制成功了,美国食品药品监督管理局认为这一神奇的治疗脱发的产品对人体安全并批准进入市场的概率也只有60%; 到了那个时候,即使我们的产品安全有效,依然还有10%的概率会出现一个强劲的竞争对手,带着更好的产品与我们一同进入市场,占据全部的市场份额。如果一切顺利——产品安全、有效,而且竞争者也没有出现,那么你将获得最多2500万美元的投资回报。
但是基于这种情况, 依旧不建议你进行投资, 因为风险太大.
回归平均数
概率学告诉我们,跟在异常值——在某个方向上远离平均数的数据——之后的更有可能是那些接近(长期积累得出的)平均数的数据。
假设我正在组建一支抛硬币的明星团队(在认为扔硬币与天赋和能力有关的错误观念的驱使下),我发现了一名连续6次抛硬币都反面朝上的学生,于是我向他伸出了“橄榄枝”—— 一份价值5000万美元、为期10年的合约。不用说,10年之后我一定会失望至极,因为这名学生在这10年里抛出的硬币只有50%的情况是反面朝上。
乍一看,回归平均数可能会与“赌徒悖论”相排斥。当学生连续6次抛出的硬币都是反面朝上之后,下一次是不是“应该”正面朝上? 他再次抛硬币得到正面向上的概率依旧没变:1/2。 他已经连续多次抛出反面朝上的事实并不能增加他下一次抛出正面朝上的概率,每一次抛硬币都是一个独立事件。但是,我们可以期望接下来抛硬币的结果在总体上会和概率学所预测的一致,即半数是正面朝上、半数是反面朝上,而非之前出现的所有结果都是反面朝上.
如果一个人连续6次硬币都是反面朝上, 那么接下来的10次, 20次, 100次抛硬币的过程中, 肯定会出现更多的正面朝上的结果, 因为总体来看, 结果是回回归平均值的(前提你的平均值是正确的).
蒙提·霍尔悖论
该不该改变选择
蒙提·霍尔悖论”是一个著名的概率难题。1963年美国开播的电视游戏节目《让我们做个交易》中,参赛者们就会面临这个难题。每一期节目播到最后,总会有一个参赛者脱颖而出,站在主持人蒙提·霍尔旁边,在他们的眼前有3扇巨大的门,编号分别为1、2、3。蒙提会告知参赛者,其中的一扇门的门后摆放着极为诱人的大奖(比如说一辆小轿车),而另外两扇门的后面各站着一头羊,参赛者需要在这3扇门中选择一扇门,并获得那扇门后面的奖品。
游戏刚开始时,中大奖的概率一目了然,两头羊和一辆车,参赛者有1/3的概率选中那扇后面是轿车的大门。但正如之前提到的,这个节目及其主持人蒙提·霍尔之所以能够在美国概率学课本中占得一席之地,是因为这个节目还有一个精心的安排。当参赛者选择了一扇门之后,蒙提会打开剩下的两扇门中的一扇,向观众和选手展示这扇门后面的奖品——一头羊,然后蒙提会再次询问参赛者是否要改变当初的选择,也 就是在最初选择的那扇门和剩下的那扇门中再选择一次。
问题来了, 到底应不应该重新选择呢? 答案是肯定的。如果参赛者坚持最初的选择,那么中大奖的概率为1/3,如果改选剩下的那扇门,那么中奖的概率就是2/3。原理如下图:
因此如果参赛者坚持选择概率是 1/3
参赛者改变选择概率是 2/3 * 1 = 2/3
黑天鹅事件
var模型
var模型会得到一个概率, 表示公司在某段事件内损失不超过某个值的概率是多少.其最大的卖点就在于将风险描述为一个单一的数字——一个美元数据,仅此而已,而那些恰好不擅长数量分析的人就会趋之若鹜。例如24小时VaR为1900万美元, 即在接下来的24个小时内,99%的可能该公司最多亏损1900万美元,而损失超过1900w美元概率仅为1%。 就是这1%, 导致了美国2008年金融危机的爆发.
VaR模型的风险档案里隐藏着两个巨大的问题。
- 模型构建的概率基础参照的是过去的市场行为
然而金融市场和啤酒盲品会不一样,前者的未来不一定是历史的重复,没有任何的理论证据可以保证1980〜2005年间的市场动态是2005年之后市场表现的最佳预测参照物。从某些方面来看,这一缺乏想象力的行为总是认为即将开始的战争与上一场战争的情况差不多。从20世纪90年代开始一直到21世纪初,商业银行的房屋按揭业务所使用的贷款模型都认为房价出现大幅度下跌的概率为零。在以前,美国房价从来没有像2007年跌得那么惨、那么快,但这就是活生生的事实。美联储前主席格林斯潘在接受美国国会委员会质询时解释:“在2007年夏天,金融领域的理论大厦完全坍塌,这是因为之前的风险管理模型所收集的数据只涵盖了过去20年一经济快速增长的狂欢的20年。我认为,如果我们的模型能够充分地考虑历史上出现的几次危机,让模型更加完善的话,银行在放贷时的资本要求会更高,金融世界就会在更加健康和稳定的状态下运行。”
- 即使通过基本数据,我们能够借助VaR准确地预测未来风险,这99%的保证依然存 在着失效的危险,因为真正把事情搞砸的正是剩下的1%。
因此更加印证了概率的本质, 概率的本质只能告诉我们大概率会发生什么, 但是小概率更需要被重视
- 回归平均数 概 率学告诉我们,跟在异常值——在某个方向上远离平均数的数据——之后的更有可能是那些 接近(长期积累得出的)平均数的数据。