03《性能工程高手课》学习笔记@性能工程数理基础

318 阅读3分钟

概率统计和排队论。

一、概率和置信区间

1. 概率

Probability,几率或机率,是一个 01 之间的实数,是对随机事件发生可能性的度量。

2. 贝叶斯定理

Bayes' theorem,在已知一些条件下,某事件的发生概率。通过已知的任意三个概率函数推出第四个

3. 置信区间

Confidence interval,即 CI,是对产生样本的总体参数分布中得某一个未知参数值,以区间形式给出的估计。

通过对样本的计算,得到对某个总体参数的区间估计,展现为总体参数的真实值有多少概率落在所计算的区间里。

置信水平越高,置信区间就会越宽。

二、数据分析

概率和置信区间,指导我们分析数据

1. 数理统计的点估计指标

描述性统计分析是传统数据分析的基础,这个分析过程可以产生一些描述性指标(点估计),如:平均数中位数最大值最小值百分位数等。

点估计统计指标定义优点缺点
平均值/均值/平均数Mean,确定一组数据的均衡点。
算术平均数N 个数求和后除以 N
几何平均数N 个数求积后开 N 次方。
最常用测度值。容易受极端值影响。
中位数/中值Median,将数值集合划分为相等的上下两部分,一般是把数据以升序或降序排列后,处于最中间的数。不受极端值的影响。如果数据呈现一些特殊分布,如:二向分布,中位数的表达会受很大的负面影响。
四分位数Quartile,把所有数值由小到大排列,并分成四等份,处于三个分割点位置的数值就是四分位数。简单,固定了三个分割点位置。位置太固定,不能更普遍地描述其他位置。
百分位数Percentile,将一组数据从小到达排序,某一百分位所对应数据的值就称为这一百分位的百分位数。以 Pk 表示第 k 个百分位数。
P50:中位数;
P0:最小值;
P100:最大值。
不容易受极端值影响,因为有 100 个位置可以选取,相对四分位数适用范围更广。-
方差/标准差VarianceStandard Variance,描述变量的离散程度,即该变量离其期望值的距离。--

面对同一组数据,平均值、中位数以及百分位数谁大谁小,取决于这组数据的具体离散程度。

2. 重要的分布模型

借助分布模型,更直观、准确的描述数据。

分布模型适用场景
泊松分布适合于描述单位时间内随机事件发生的次数的概率粉笔。
如:某一服务设施在一定时间内收到的服务请求的次数等。
二项式分布n 个独立的是/非实验中成功的次数的离散概率分布。
正态分布代表一个不明的随机变量。
在不清楚总体分布情况时,可以用正态分布来模拟

三、排队的理论

排队论(Queuing Theory),也被称为随机服务系统理论。

计算机系统中的很多模块,比如 网络数据发送合接收CPU的调度存储IO数据库查询处理等等,都是用队列来缓冲请求的。因此,排队理论经常被用来做各种性能的建模分析。