赤裸裸的统计学-part1

223 阅读9分钟

描述统计学

描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括

生活中充斥着统计学的结论, 例如:

  1. nba中球员的正负值可以衡量一个球员对这场比赛的贡献, 而你不需要去关注他到底得了几分, 几个篮板;

  2. 英雄联盟里每个选手的kpa, 同样反应了这名选手的表现;

  3. 每到年底各大app都会发布的账单, 反应了你对app的使用情况.

我们不难发现, 统计学可以通过某种规则给出一个或多个数字, 而这些数字易于理解, 同时也能帮助我们获取一些有意义的结论.

描述性数据有时会为我们带来误导

统计学反应的是某种统计方式(即某种角度)得到的结果, 并不是说统计的数据或者方式有问题, 而是针对某些问题, 需要特定的统计方式才能得到有益的结论.

例如在美国,衡量一个学生的高中和大学学业表现的方法是计算平均成绩点数(GPA ), 通俗点儿说就是学生在校的平均成绩。如果一门课的成绩为A,那么就可以获得4点,B是3点,C是2点,以此类推。当高中毕业生申请大学、大学毕业生找工作时,GPA 就是评价他们学术潜力的一个方便快捷的指标。一个GPA 为3.7的学生显然要比另一个GPA 只有2_5的学生的实力强,这就使得GPA 成为一个受人欢迎的描述性数据,不仅计算容易、理解容易,而且对不同学生 进行比较也很容易。

但这一衡量指标并不完美。GPA没有反映不同学生所选课程的难易程度,假设一个GPA为3.4的学生选的都是相对没有挑战性的课,而另一名GPA只有2.9的学生的课程表里尽是微积分、物理这类难学的课,我们能一口判定孰优孰劣吗?

例如人们总是谈论的地区最低保障工资或者人均收入, 描述统计学的数字告诉我们, 我们的生活似乎发生了天翻地覆的变化, 但是如果考虑了通货膨胀的因素, 其实提升十分有限. 这同样也是描述性数据为我们带来的误导

基尼系数

基尼系数用于衡量一个国家的财富(或收入)分配的公平程度,最小为0, 最大为1。计算基尼系数可以看总资产,也可以看年收入,可以以个人为计算和比较单位,也可以以家庭为单位。所有这些数据都是紧密联系的,但不会完全相同。

基尼系数只是一个用作比较的工具,其数字本身并无实质意义。在一个家庭财富均等的国家里,基尼系 数为0;与此相反,如果一个国家的所有财富都集中在一个家庭里,那么这个国家的基尼系数等于1。或许你已经猜到了,一个国家的基尼系数越接近于1,那么这个国家的财富分配就越不公平。

均值的价值和缺陷

均值是常用的描述统计学数据, 通过均值我们可以得到数据的分布集中趋势.

n个数据集合[x1, x2, x3....xn]均值计算方式:
均值 = (x1 + x2 + x3 + .. + xn) / n

通俗来说, 平均值能否反应一组数据的平均水平, 亦或是从统计学的角度认为大部分数据都集中在均值附近.

但是它们容易受到远离中心区域的“异常值”的干扰而出现失真, 即在计算均值时, 如果某些数据的值明显大于(或小于)其它值, 会导致整组数据的均值被拉高(或拉低), 此时均值不再能表达数据分布集中趋势的含义.

常见的统计中国人均年收入的时候会发现是好几万, 但是实际上这个值是被极小一部分人极高的年收入被拉升的.

中位数, 四分位数, 十分位数, 百分位数

中位数是首先将一组数据排序, 然后取中间位置, 此时一半的数据位于中位数之前, 小于中位数, 另一半数据位于中位数之后, 大于中位数.

四分位数, 十分位数, 百分位数概念上是类似的, 只不过是把数据一分为多少的问题.

如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的

中位数能够一定程度消除异常离散值带来的影响, 例如如果用中位数反应中国人均年收入, 就算中国再多几个马云, 也不会对中位数结果产生什么很大的影响.

绝对值

通常来说,在没有任何背景或额外信息的前提下,绝对数字依然能被理解。

例如告诉你一场篮球赛我得了50分, 你就算不知道是哪场篮球赛, 或者其它人得了多少分, 你都能得出我得了一个高分这个结论. 但是显然你需要对篮球赛这件事需要有基本的认识, 就好比你需要知道足球赛一般都是进几个球, 篮球赛最多也就得100来分, 一场考试最多得100分这种尝试.

但是绝对值作为描述性统计结论, 只有在数值很显然的时候, 才具有意义, 例如你告诉我你在满分100的期末考试你考了99分, 我能得到结论你考的很好, 但是你得了80分, 很难从这个绝对值中得到一个确切的结论. 此时相对值就显得更有意义

百分比

百分比只有在比较或者处于一个背景时才有意义.

例如小明的期末成绩在全校同年级中占前10%, 这个百分比是有意义的.

但是单纯的百分比是不够的, 例如某公司今年营收增长80%, 听起来好像很厉害, 但是可能其它同行业公司都是增长200%, 因此80%这个数字就没有更大的意义.

标准差.

标准差也是一个能够帮助我们在一大堆杂乱无章的数字中发现真理的统计数值,我们用它来衡量数据相对于平均值的分散程度。根据标准差,我们可以知道所观察数值的分散情况。

标准差是基于原始数据和均值计算出来的, 设计的初衷就是反应每个数据相对于平均值的分散程度.

均值 + 标准差的意义

我们通过均值加标准差的形式, 一定程度消弱了异常值对均值的影响, 就可以更好的描述数据的集中趋势.

因此相对于均值, 更应该采用均值 + 标准差的形式来描述

正态分布

正态分布作为作文统计学中最有用, 最重要, 最常见的分布之一, 就是基于均值 + 标准差.

百分率和百分比的区别

百分率一般是基于某个定量来计算的, 例如个人所得税的税率是15%, 是基于你个人收入的. 比如税率从15%提升到20%, 同样也都是基于你个人收入谈论的

百分比则可以是基于之前得到的量, 例如个人税率从15提升到20, 就可以说个人税率提升了 (20 -15) /15 = 33%.

根据合适的场景选择使用百分率和百分比, 能够更有效的传递描述性统计的结论.

为何要选择合适的描述性统计

将一系列复杂的信息浓缩成一个数字,这是所有统计都具备的优点。我们可以因此对原先无法展开简单比较的事物进行排名,同时,将一系列复杂的信息浓缩成一个数字,这也是所有指数的缺点所在。我们有各种各样的方式来浓缩信息,每种方式都有可能导致一个不同的结果。因此选择不同的方式, 就会传递不同的结论.

方差和标准差的公式

统计数字会撒谎

虽然统计学是扎根于数学土壤里的,而且数学又是一门以准确着称的学科,但使用统计学来描述复杂现象的这一过程并不是精确无误的,这就为掩盖真相创造了大量的空间。

根据描述性方式的不同, 用真实的数据, 可能得到真假存疑或者完全不对的结论

精确和准确的区别

精确是指我们在描述某一数据是否是具体的, 例如一组数据[1, 2, 3, 100], 它的均值是26.5, 这就是精确的, 如果我说均值是20多, 这就是不精确的. 但是你如果说这组数据集中趋势是在26.5, 那这句话是精确的, 但不是准确的.

准确是描述一个数据是否与真相是一致的, 例如一组数据[1, 2, 3, 100], 他的数据集中在5一下, 这句话就是准确的, 但是可能不够精确.如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。

根据描述统计学的公式, 我们能轻易的得到精确的结论, 但是精确的结论是否是准确的, 才是统计学真正的意义所在!

平均数和中位数结合

从准确性的角度来看,平均数和中位数孰取孰舍,关键就在于这个数据分布里的异常值对事实的真相是起到扭曲的作用,还是其重要的组成部分。

百分率带来的影响, 完全取决于基数

百分比本身只能反应某些数据变化的比例, 但是如果不考虑基数的话, 百分比带来的客观影响很难被准确反应

很多时候, 事情可能并没有发生好转, 但是统计学会让数据变得很好看(更改统计的规则, 权重, 样本选择等)