03《性能工程高手课》学习笔记@性能工程数理基础1. 概率 Probability，几率或机率，是一个 0 到 1 之间

概率统计和排队论。

一、概率和置信区间

Probability，几率或机率，是一个 0 到 1 之间的实数，是对随机事件发生可能性的度量。

Bayes' theorem，在已知一些条件下，某事件的发生概率。通过已知的任意三个概率函数推出第四个。

Confidence interval，即 CI，是对产生样本的总体参数分布中得某一个未知参数值，以区间形式给出的估计。

通过对样本的计算，得到对某个总体参数的区间估计，展现为总体参数的真实值有多少概率落在所计算的区间里。

置信水平越高，置信区间就会越宽。

概率和置信区间，指导我们分析数据。

描述性统计分析是传统数据分析的基础，这个分析过程可以产生一些描述性指标（点估计），如：平均数、中位数、最大值、最小值、百分位数等。

点估计统计指标	定义	优点	缺点
平均值/均值/平均数	`Mean`，确定一组数据的均衡点。算术平均数：`N` 个数求和后除以 `N`。几何平均数：`N` 个数求积后开 `N` 次方。	最常用测度值。	容易受极端值影响。
中位数/中值	`Median`，将数值集合划分为相等的上下两部分，一般是把数据以升序或降序排列后，处于最中间的数。	不受极端值的影响。	如果数据呈现一些特殊分布，如：二向分布，中位数的表达会受很大的负面影响。
四分位数	`Quartile`，把所有数值由小到大排列，并分成四等份，处于三个分割点位置的数值就是四分位数。	简单，固定了三个分割点位置。	位置太固定，不能更普遍地描述其他位置。
百分位数	`Percentile`，将一组数据从小到达排序，某一百分位所对应数据的值就称为这一百分位的百分位数。以 `Pk` 表示第 `k` 个百分位数。 `P50`：中位数； `P0`：最小值； `P100`：最大值。	不容易受极端值影响，因为有 `100` 个位置可以选取，相对四分位数适用范围更广。	-
方差/标准差	`Variance`、`Standard Variance`，描述变量的离散程度，即该变量离其期望值的距离。	-	-

面对同一组数据，平均值、中位数以及百分位数谁大谁小，取决于这组数据的具体离散程度。

借助分布模型，更直观、准确的描述数据。

分布模型	适用场景
泊松分布	适合于描述单位时间内随机事件发生的次数的概率粉笔。如：某一服务设施在一定时间内收到的服务请求的次数等。
二项式分布	`n` 个独立的是/非实验中成功的次数的离散概率分布。
正态分布	代表一个不明的随机变量。在不清楚总体分布情况时，可以用正态分布来模拟。

排队论（Queuing Theory），也被称为随机服务系统理论。

计算机系统中的很多模块，比如 网络数据发送合接收、CPU的调度、存储IO、数据库查询处理等等，都是用队列来缓冲请求的。因此，排队理论经常被用来做各种性能的建模分析。