频率派和统计派
极大似然估计、极大后验估计
-
极大似然估计
参数取何值时,样本出现的概率最大
联合分布、条件分布、概率分布
-
联合分布
多个变量共同成立时,该状态发生的概率。对多个变量进行遍历,得到概率分布情况
-
条件分布
多个变量情况下,某一个变量确定时另一个变量发生的概率
找出I=1的情况下,其他变量发生的概率,即为条件分布的概率
-
边缘分布
某一个变量不同取值时发生的概率
-
概率密度函数
朴素贝叶斯、变分贝叶斯
- 贝叶斯公式:
数学课本上的理论:
在机器学习中,经常以下面这张形式出现:
贝叶斯就是在先验已知的情况下,根据观测,求出似然,进而求出后验概率。 所以一定要先弄清谁是先验,要求什么。
- 朴素贝叶斯
是根据贝叶斯估计,去求后验概率最大的情况
- 变分贝叶斯
马尔科夫链、隐马尔科夫链、卡尔曼滤波
- 马尔科夫链
数学课本上:
在机器学习中,主要应用在求序列的概率转移分布:P(xt,xt+1,..,|xt-1,xt-1,...,x0)
- 隐马尔科夫链
1个公式2个假设3个问题
3个问题主要是结合齐次性来推导出公式进行应用
EM算法
假设检验
hypothesis testing, 判断样本与样本,样本与总体的差别是由抽样引起还是本质差别引起
- 应用:
- 模型训练和预测两组数据的特征是否满足同一个分布
- ABTest,实验组和对照组,实验组指标好是否有随机因素
- 两组数据相关系数很高,是否因为随机因素造成,有没有可能是样本量不够大造成
- 通过极大似然估计得到的参数,否是显著有效
- 基本步骤
- 建立假设
- 原假设:, 备择假设:
- 如果是等于和不等于属于双侧检验,大于/小于属于单侧检验 2.随机采样,然后构造统计量:
- t
- F
- 卡方
- z
- 根据显著性水平确定拒绝域临界值
- 由统计量与临界值比较,也可以计算P值和显著性水平比较
【先假设原假设正确,计算统计量看原假设发生的概率,如果概率小于给定的阈值,说明是小概率事件发生了, 而小概率事件在随机试验中是不发生的,所以原假设有问题,拒绝原假设】
- 两类错误
-
拒真:为真,拒绝
-
取伪:为假,接受
-
两类错误不能同时最小
-