这是我参与8月更文挑战的第7天,活动详情查看:8月更文挑战
1. 统计 & 数据分析知识
基础概念:随机变量、分布函数、概率密度函数
-
什么是随机变量?随机变量和随机试验之间有什么关系? 随机试验: 同一条件下 - 随机现象 - 大量重复观测
- 三个特点:
- 试验前不能断定将会产生什么结果
- 可明确指出/说明试验的所有可能结果
- 在相同条件下可重复试验 - 重复试验的结果以随机方式出现
随机变量:描述随机试验的结果。X表示 - 可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合【结果的总和和均值】
- 三个特点:
-
如何区分不同的随机变量呢? 随机性是基于一定的规律产生的 - 随机变量的分布
根据随机变量的分布来区分不同的随机变量 - 通过了解随机变量的分布,在试验开始前预知最终产生的结果 -
什么是样本?样本和随机变量之间有什么关系?
样本 - 每次随机试验的结果 - “观测值” - 根据样本量不同 - 将不同的随机试验称为样本量为n的随机试验
随机变量 X- 将所有结果看作一个样本量为n的随机试验,对应的样本为x1, x2, x3, ... X被视为这些样本的均值
- 每个结果看作一个独立的样本量为1的随机试验,x1, x2, x3是来自相同的随机试验且相互独立的样本 - X 为这些随机试验结果的均值
随机变量X的分布是相同的
-
随机变量是怎么进行分类的?分类依据是什么?
随机变量可分为离散型随机变量和连续型随机变量。分类依据在于所描述的随机试验所有可能的结果数量是否可数
可数 - 所有可能的结果是否能按一定的次序列举出来 -
常见的离散型随机变量有哪些?它们各自有什么样的分布律?
- 伯努利分布:0-1分布 试验结果只有两种
- 二项分布:n个重复独立的伯努利分布
- 每个伯努利分布事件发生的频率相同
- 各个试验的结果相互独立,不受其他试验的结果干扰
- 泊松分布:离散概率分布 - 单位时间【空间】内随机事件发生的次数
-
常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
PDF - 概率密度函数
CDF - 累积分布函数- 均匀分布:概率密度函数在结果区间内为固定数值的分布
- 正态分布
- 指数分布:描述泊松过程中事件之间的时间的概率分布 - 事件以恒定的平均速率连续且独立发生的过程
随机变量的常用特征
- 用来描述随机变量的数字特征有哪些?
- 期望:E(X) - 随机变量X的平均水平
- 方差&标准差:D(X) - 刻画随机变量X的波动大小 - 方差越大,结果的未知性就越大
- 分位数:某个样本x在整体分布的排序情况
- 协方差&相关系数:关注两个或多个随机变量之间的关系
- 随机变量X+Y、XY的期望与X、Y期望的关系?
- E(X + Y)=E(X)+E(Y) - X,Y没有任何约束
- E(XY) = E(X)E(Y) - X,Y一定是独立变量,不表明x、Y是相互独立
- 分布的期望和中位数的大小关系?
分布的期望和中位数的大小关系 - 根据分布的不同而变化- 正偏态 - 中位数小于期望
- 正态 - 中位数和期望相等
- 负偏态 - 中位数大于期望
- 简述变量独立与变量不相关的区别
不相关:两者之间没有线性关系
独立:两者互不相干,没有关联 - 常见分布的期望和方差是什么?
离散型随机变量:
连续型随机变量:
正态分布与大数定律、中心极限定理
- 正态分布的基本特性是什么?
非偏态的分布,概率密度函数图形以期望为中心左右对称,期望与中位数大小相等 - 3σ方法与正态分布之间存在怎样的关联
68.27%,95.45,99.73 - σ,2σ,3σ区间
样本落在3σ之外的概率只有0.27% - 粗大误差 - 这部分数据剔除 - 大数定律 - 将随机变量X所对应的随机试验重复多次 - 随着试验次数的增加,X的均值会愈发接近于E(X)