统计学基础
世界现在是数据的世界,不论是什么工种,不懂点大数据,感觉好像跟这个世界有壁,所以我打算持续更新统计学,线性代数和机器学习笔记
我们都太渺小,都不配把整个时代作为对手,我们应该和时代站在一起 -- 双雪涛《平原上的摩西》
我的学习习惯是:在不紧急的情况下系统的学习,所以可能很啰嗦,很枯燥,但很必要,快餐式学习有时候是浪费时间,学了也记不住
统计学分类
统计学分为描述统计和推断统计
- 描述统计: 已知总体数据,去描述数据的情况,比如期望表明平均值,方差代表离散程度
- 推断统计: 已知样本数据,来推断总体数据的情况的学问,研究方法有假设检验,参数估计等
统计数据的类型
按照计量层次分:
- 分类的数据(categorial data): 人分为男女
- 顺序的数据(rank data): 有序的非数字型数据: 比如学神,学霸,学弱,学渣
- 数值型数据(metric data): 比如身高
按收集方法分:
- 观测的数据
- 试验的数据
按照时间状况分:
- 截面数据: 比如2019年各省的人口数
- 时间序列数据: 2000年到现在上海的平均房价,机器学习中有个很大的分类叫时间序列分析,根据过去的房价预测未来房价,预测股价,电商中预测销量等都属于典型应用
统计学基本概念
- 总体: 有限总体,无限总体
- 样本:总体一部分
- 参数: 描述总体特征的概括性数字度量,比如总体均值u, 标准差sigma, 总体比例pai 等,
- 统计量: 用来描述样本样本特征的概括性数字度量,样本均值(x),标准差(s),样本比例等
- 变量: 说明现象某种特征的概念,比如商品销售额,受教育程度, 变量分为: 分类变量(categorial variable),顺序变量(rank variable),数据变量(metric variable),数据变量还分为离散变量和连续变量
抽样
- 概率抽样: 随机抽样,每个单位被抽中的概率是已知的
- 简单随机抽样: 学生名册(抽选学生),从总体N个单位的抽样框中随机的,一个个的抽取n个单位作为样本,总体中每一个元素都有相同的机会, 有分为重复抽样和不重复抽样
- 分层抽样(stratified sampling): 讲总体单位按照某种特征划分成不同的层,从不同的层中独立·随机的抽取样本
- 整群抽样,将总体分为若干个群,抽样时直接抽取群,对选中的群中的所有单位实施调查
- 系统抽样: 讲总体中的所有单位按照一定顺序排列,在规定范围内,随机抽取一个单位作为初始单位,然后按照规定好的规则确定其他样本, 比如随意选个r, 然后抽取r+k
- 多阶段抽样,先抽群,然后在进一步抽,先抽市,再抽县,再抽乡镇
- 非概率抽样: 不依据随机原则,有偏估计
下一篇预告: 数据的图表展示(pandas),概括性度量