📊 概论与数据统计:从“样本”到“结论”的一次看懂!

45 阅读3分钟

微信图片_20251014151033_10_20.jpg

1️⃣ 统计两大分支:一眼认全👀

名称目的常用工具
描述统计总结 & 可视化数据均值、方差、箱线图
推断统计用样本猜总体置信区间、假设检验、回归

流程:样本 → 描述 → 模型 → 推断 → 决策🚀


2️⃣ 描述统计:5 个数描绘千行数据📜

import pandas as pd, numpy as np, matplotlib.pyplot as plt

s = pd.Series(np.random.randn(1000))
s.describe()          # 一次出 8 指标
指标解释公式
均值重心Σx/n
中位数50% 分位排序取中间
众数出现最多s.mode()
方差波动平方Σ(x−x̄)²/(n−1)
标准差波动原始单位√方差
偏度对称性0→对称
峰度尾巴厚度3→正态
极差Max-Min快速看跨度

3️⃣ 数据分布:正态是王者👑

from scipy import stats
stats.probplot(s, dist='norm', plot=plt)
分布场景Python
正态身高/误差scipy.stats.norm
t 分布小样本均值stats.t
χ² 分布方差/列联表stats.chi2
F 分布方差比stats.f

中心极限定理:样本均值 ≈ 正态(n≥30)🎯


4️⃣ 推断统计:用样本猜总体🔍

① 置信区间(CI)

stats.t.interval(0.95, df=n-1, loc=x̄, scale=SE)

95% CI [172, 178] cm:重复抽样 100 次,约 95 次区间包含真实均值

② 假设检验 5 步

  1. 设原假设 H₀(如 μ=170)
  2. 选检验(t/z/χ²/F)
  3. 计算统计量 & p-value
  4. p ≤ α(0.05)?→ 拒 H₀
  5. 业务解释
t_stat, p = stats.ttest_1samp(s, popmean=170)
print(f"t={t_stat:.2f}, p={p:.3f}")

5️⃣ 常见检验场景速查表📊

目的检验Python 函数
均值 vs 常数单样本 tttest_1samp
两组独立样本独立 tttest_ind(a, b)
两组配对配对 tttest_rel(before, after)
方差齐性F 检验levene(a, b)
列联表χ² 独立性chi2_contingency(table)
正态性Shapiro-Wilkshapiro(x)

6️⃣ 效应量:p 值不够,还要看大小📏

cohen_d = (mean_a - mean_b) / pooled_std
效应量解释
0.2
0.5
0.8

避免“p-hacking”:预先注册假设 & 重复实验🔒


7️⃣ 相关 & 回归:从联系到预测🚀

# 皮尔逊相关系数
r, p = stats.pearsonr(x, y)        # -1~1

# 简单线性回归
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(X.reshape(-1,1), y)
y_pred = model.predict(X_new)

R² 决定系数:模型解释数据变异的比例


8️⃣ Python 一条龙实战:咖啡温度 vs 评分☕

import seaborn as sns, matplotlib.pyplot as plt

df = sns.load_dataset('coffee')
sns.regplot(x='temperature', y='rating', data=df, ci=95)
plt.title('温度与评分回归(95% CI)')

# 检验相关系数
r, p = stats.pearsonr(df.temperature, df.rating)
print(f"r={r:.2f}, p={p:.3f}")

结果:r=0.74, p<0.001 → 强正相关,温度高评分高


9️⃣ 统计报告 3 件套:数 + 图 + 解释📄

  1. :样本量、均值、CI、p 值、效应量
  2. :箱线图、置信区间条、回归带
  3. 解释:用业务语言翻译“p<0.05”→“有显著差异”

🔟 常见误区 Top5⚠️

误区正解
p>0.05=无效果可能样本小,需看效应量
相关=因果需控制混杂 & 实验设计
不检验正态直接 t小样本先 shapiro / Q-Q 图
多次 t 检验乱用多组比较用 ANOVA + 事后校正
只报 p 不报 CICI 给出不确定性范围,更全