数据分析 - 基础知识考查

373 阅读4分钟

这是我参与8月更文挑战的第7天,活动详情查看:8月更文挑战

1. 统计 & 数据分析知识

基础概念:随机变量、分布函数、概率密度函数

  1. 什么是随机变量?随机变量和随机试验之间有什么关系? 随机试验: 同一条件下 - 随机现象 - 大量重复观测

    1. 三个特点:
      1. 试验前不能断定将会产生什么结果
      2. 可明确指出/说明试验的所有可能结果
      3. 在相同条件下可重复试验 - 重复试验的结果以随机方式出现
        随机变量:描述随机试验的结果。X表示 - 可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合【结果的总和和均值】
  2. 如何区分不同的随机变量呢? 随机性是基于一定的规律产生的 - 随机变量的分布
    根据随机变量的分布来区分不同的随机变量 - 通过了解随机变量的分布,在试验开始前预知最终产生的结果

  3. 什么是样本?样本和随机变量之间有什么关系?
    样本 - 每次随机试验的结果 - “观测值” - 根据样本量不同 - 将不同的随机试验称为样本量为n的随机试验
    随机变量 X

    1. 将所有结果看作一个样本量为n的随机试验,对应的样本为x1, x2, x3, ... X被视为这些样本的均值
    2. 每个结果看作一个独立的样本量为1的随机试验,x1, x2, x3是来自相同的随机试验且相互独立的样本 - X 为这些随机试验结果的均值
      随机变量X的分布是相同的
  4. 随机变量是怎么进行分类的?分类依据是什么?
    随机变量可分为离散型随机变量和连续型随机变量。分类依据在于所描述的随机试验所有可能的结果数量是否可数
    可数 - 所有可能的结果是否能按一定的次序列举出来

  5. 常见的离散型随机变量有哪些?它们各自有什么样的分布律?

    1. 伯努利分布:0-1分布 试验结果只有两种
    2. 二项分布:n个重复独立的伯努利分布
      1. 每个伯努利分布事件发生的频率相同
      2. 各个试验的结果相互独立,不受其他试验的结果干扰
    3. 泊松分布:离散概率分布 - 单位时间【空间】内随机事件发生的次数
  6. 常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
    PDF - 概率密度函数
    CDF - 累积分布函数

    1. 均匀分布:概率密度函数在结果区间内为固定数值的分布
    2. 正态分布
    3. 指数分布:描述泊松过程中事件之间的时间的概率分布 - 事件以恒定的平均速率连续且独立发生的过程

随机变量的常用特征

  1. 用来描述随机变量的数字特征有哪些?
    1. 期望:E(X) - 随机变量X的平均水平
    2. 方差&标准差:D(X) - 刻画随机变量X的波动大小 - 方差越大,结果的未知性就越大
    3. 分位数:某个样本x在整体分布的排序情况
    4. 协方差&相关系数:关注两个或多个随机变量之间的关系
  2. 随机变量X+Y、XY的期望与X、Y期望的关系?
    1. E(X + Y)=E(X)+E(Y) - X,Y没有任何约束
    2. E(XY) = E(X)E(Y) - X,Y一定是独立变量,不表明x、Y是相互独立
  3. 分布的期望和中位数的大小关系?
    分布的期望和中位数的大小关系 - 根据分布的不同而变化
    1. 正偏态 - 中位数小于期望
    2. 正态 - 中位数和期望相等
    3. 负偏态 - 中位数大于期望
  4. 简述变量独立与变量不相关的区别
    不相关:两者之间没有线性关系
    独立:两者互不相干,没有关联
  5. 常见分布的期望和方差是什么?
    离散型随机变量:

image.png 连续型随机变量:

image.png

正态分布与大数定律、中心极限定理

  1. 正态分布的基本特性是什么?
    非偏态的分布,概率密度函数图形以期望为中心左右对称,期望与中位数大小相等
  2. 3σ方法与正态分布之间存在怎样的关联 68.27%,95.45,99.73 - σ,2σ,3σ区间
    样本落在3σ之外的概率只有0.27% - 粗大误差 - 这部分数据剔除
  3. 大数定律 - 将随机变量X所对应的随机试验重复多次 - 随着试验次数的增加,X的均值会愈发接近于E(X)