1️⃣ 统计两大分支:一眼认全👀
| 名称 | 目的 | 常用工具 |
|---|---|---|
| 描述统计 | 总结 & 可视化数据 | 均值、方差、箱线图 |
| 推断统计 | 用样本猜总体 | 置信区间、假设检验、回归 |
流程:样本 → 描述 → 模型 → 推断 → 决策🚀
2️⃣ 描述统计:5 个数描绘千行数据📜
import pandas as pd, numpy as np, matplotlib.pyplot as plt
s = pd.Series(np.random.randn(1000))
s.describe() # 一次出 8 指标
| 指标 | 解释 | 公式 |
|---|---|---|
| 均值 | 重心 | Σx/n |
| 中位数 | 50% 分位 | 排序取中间 |
| 众数 | 出现最多 | s.mode() |
| 方差 | 波动平方 | Σ(x−x̄)²/(n−1) |
| 标准差 | 波动原始单位 | √方差 |
| 偏度 | 对称性 | 0→对称 |
| 峰度 | 尾巴厚度 | 3→正态 |
| 极差 | Max-Min | 快速看跨度 |
3️⃣ 数据分布:正态是王者👑
from scipy import stats
stats.probplot(s, dist='norm', plot=plt)
| 分布 | 场景 | Python |
|---|---|---|
| 正态 | 身高/误差 | scipy.stats.norm |
| t 分布 | 小样本均值 | stats.t |
| χ² 分布 | 方差/列联表 | stats.chi2 |
| F 分布 | 方差比 | stats.f |
中心极限定理:样本均值 ≈ 正态(n≥30)🎯
4️⃣ 推断统计:用样本猜总体🔍
① 置信区间(CI)
stats.t.interval(0.95, df=n-1, loc=x̄, scale=SE)
95% CI [172, 178] cm:重复抽样 100 次,约 95 次区间包含真实均值
② 假设检验 5 步
- 设原假设 H₀(如 μ=170)
- 选检验(t/z/χ²/F)
- 计算统计量 & p-value
- p ≤ α(0.05)?→ 拒 H₀
- 业务解释
t_stat, p = stats.ttest_1samp(s, popmean=170)
print(f"t={t_stat:.2f}, p={p:.3f}")
5️⃣ 常见检验场景速查表📊
| 目的 | 检验 | Python 函数 |
|---|---|---|
| 均值 vs 常数 | 单样本 t | ttest_1samp |
| 两组独立样本 | 独立 t | ttest_ind(a, b) |
| 两组配对 | 配对 t | ttest_rel(before, after) |
| 方差齐性 | F 检验 | levene(a, b) |
| 列联表 | χ² 独立性 | chi2_contingency(table) |
| 正态性 | Shapiro-Wilk | shapiro(x) |
6️⃣ 效应量:p 值不够,还要看大小📏
cohen_d = (mean_a - mean_b) / pooled_std
| 效应量 | 解释 |
|---|---|
| 0.2 | 小 |
| 0.5 | 中 |
| 0.8 | 大 |
避免“p-hacking”:预先注册假设 & 重复实验🔒
7️⃣ 相关 & 回归:从联系到预测🚀
# 皮尔逊相关系数
r, p = stats.pearsonr(x, y) # -1~1
# 简单线性回归
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(X.reshape(-1,1), y)
y_pred = model.predict(X_new)
R² 决定系数:模型解释数据变异的比例
8️⃣ Python 一条龙实战:咖啡温度 vs 评分☕
import seaborn as sns, matplotlib.pyplot as plt
df = sns.load_dataset('coffee')
sns.regplot(x='temperature', y='rating', data=df, ci=95)
plt.title('温度与评分回归(95% CI)')
# 检验相关系数
r, p = stats.pearsonr(df.temperature, df.rating)
print(f"r={r:.2f}, p={p:.3f}")
结果:r=0.74, p<0.001 → 强正相关,温度高评分高
9️⃣ 统计报告 3 件套:数 + 图 + 解释📄
- 数:样本量、均值、CI、p 值、效应量
- 图:箱线图、置信区间条、回归带
- 解释:用业务语言翻译“p<0.05”→“有显著差异”
🔟 常见误区 Top5⚠️
| 误区 | 正解 |
|---|---|
| p>0.05=无效果 | 可能样本小,需看效应量 |
| 相关=因果 | 需控制混杂 & 实验设计 |
| 不检验正态直接 t | 小样本先 shapiro / Q-Q 图 |
| 多次 t 检验乱用 | 多组比较用 ANOVA + 事后校正 |
| 只报 p 不报 CI | CI 给出不确定性范围,更全 |