平凡的工程师学人工智能系列学习笔记---统计学I

484 阅读3分钟

统计学基础

世界现在是数据的世界,不论是什么工种,不懂点大数据,感觉好像跟这个世界有壁,所以我打算持续更新统计学,线性代数和机器学习笔记

我们都太渺小,都不配把整个时代作为对手,我们应该和时代站在一起 -- 双雪涛《平原上的摩西》

我的学习习惯是:在不紧急的情况下系统的学习,所以可能很啰嗦,很枯燥,但很必要,快餐式学习有时候是浪费时间,学了也记不住

统计学分类

统计学分为描述统计和推断统计

  • 描述统计: 已知总体数据,去描述数据的情况,比如期望表明平均值,方差代表离散程度
  • 推断统计: 已知样本数据,来推断总体数据的情况的学问,研究方法有假设检验,参数估计等

统计数据的类型

按照计量层次分:

  • 分类的数据(categorial data): 人分为男女
  • 顺序的数据(rank data): 有序的非数字型数据: 比如学神,学霸,学弱,学渣
  • 数值型数据(metric data): 比如身高

按收集方法分:

  • 观测的数据
  • 试验的数据

按照时间状况分:

  • 截面数据: 比如2019年各省的人口数
  • 时间序列数据: 2000年到现在上海的平均房价,机器学习中有个很大的分类叫时间序列分析,根据过去的房价预测未来房价,预测股价,电商中预测销量等都属于典型应用

统计学基本概念

  • 总体: 有限总体,无限总体
  • 样本:总体一部分
  • 参数: 描述总体特征的概括性数字度量,比如总体均值u, 标准差sigma, 总体比例pai 等,
  • 统计量: 用来描述样本样本特征的概括性数字度量,样本均值(x),标准差(s),样本比例等
  • 变量: 说明现象某种特征的概念,比如商品销售额,受教育程度, 变量分为: 分类变量(categorial variable),顺序变量(rank variable),数据变量(metric variable),数据变量还分为离散变量和连续变量

抽样

  • 概率抽样: 随机抽样,每个单位被抽中的概率是已知的
    • 简单随机抽样: 学生名册(抽选学生),从总体N个单位的抽样框中随机的,一个个的抽取n个单位作为样本,总体中每一个元素都有相同的机会, 有分为重复抽样和不重复抽样
    • 分层抽样(stratified sampling): 讲总体单位按照某种特征划分成不同的层,从不同的层中独立·随机的抽取样本
    • 整群抽样,将总体分为若干个群,抽样时直接抽取群,对选中的群中的所有单位实施调查
    • 系统抽样: 讲总体中的所有单位按照一定顺序排列,在规定范围内,随机抽取一个单位作为初始单位,然后按照规定好的规则确定其他样本, 比如随意选个r, 然后抽取r+k
    • 多阶段抽样,先抽群,然后在进一步抽,先抽市,再抽县,再抽乡镇
  • 非概率抽样: 不依据随机原则,有偏估计

下一篇预告: 数据的图表展示(pandas),概括性度量