概率统计和排队论。
一、概率和置信区间
1. 概率
Probability,几率或机率,是一个 0 到 1 之间的实数,是对随机事件发生可能性的度量。
2. 贝叶斯定理
Bayes' theorem,在已知一些条件下,某事件的发生概率。通过已知的任意三个概率函数推出第四个。
3. 置信区间
Confidence interval,即 CI,是对产生样本的总体参数分布中得某一个未知参数值,以区间形式给出的估计。
通过对样本的计算,得到对某个总体参数的区间估计,展现为总体参数的真实值有多少概率落在所计算的区间里。
置信水平越高,置信区间就会越宽。
二、数据分析
概率和置信区间,指导我们分析数据。
1. 数理统计的点估计指标
描述性统计分析是传统数据分析的基础,这个分析过程可以产生一些描述性指标(点估计),如:平均数、中位数、最大值、最小值、百分位数等。
| 点估计统计指标 | 定义 | 优点 | 缺点 |
|---|---|---|---|
| 平均值/均值/平均数 | Mean,确定一组数据的均衡点。算术平均数: N 个数求和后除以 N。几何平均数: N 个数求积后开 N 次方。 | 最常用测度值。 | 容易受极端值影响。 |
| 中位数/中值 | Median,将数值集合划分为相等的上下两部分,一般是把数据以升序或降序排列后,处于最中间的数。 | 不受极端值的影响。 | 如果数据呈现一些特殊分布,如:二向分布,中位数的表达会受很大的负面影响。 |
| 四分位数 | Quartile,把所有数值由小到大排列,并分成四等份,处于三个分割点位置的数值就是四分位数。 | 简单,固定了三个分割点位置。 | 位置太固定,不能更普遍地描述其他位置。 |
| 百分位数 | Percentile,将一组数据从小到达排序,某一百分位所对应数据的值就称为这一百分位的百分位数。以 Pk 表示第 k 个百分位数。P50:中位数;P0:最小值;P100:最大值。 | 不容易受极端值影响,因为有 100 个位置可以选取,相对四分位数适用范围更广。 | - |
| 方差/标准差 | Variance、Standard Variance,描述变量的离散程度,即该变量离其期望值的距离。 | - | - |
面对同一组数据,平均值、中位数以及百分位数谁大谁小,取决于这组数据的具体离散程度。
2. 重要的分布模型
借助分布模型,更直观、准确的描述数据。
| 分布模型 | 适用场景 | |
|---|---|---|
| 泊松分布 | 适合于描述单位时间内随机事件发生的次数的概率粉笔。 如:某一服务设施在一定时间内收到的服务请求的次数等。 | |
| 二项式分布 | n 个独立的是/非实验中成功的次数的离散概率分布。 | |
| 正态分布 | 代表一个不明的随机变量。 在不清楚总体分布情况时,可以用正态分布来模拟。 |
三、排队的理论
排队论(Queuing Theory),也被称为随机服务系统理论。
计算机系统中的很多模块,比如 网络数据发送合接收、CPU的调度、存储IO、数据库查询处理等等,都是用队列来缓冲请求的。因此,排队理论经常被用来做各种性能的建模分析。