这是我参与11月更文挑战的第2天,活动详情查看:2021最后一次更文挑战
个体与集成
融合多个个体学习器的结果 - 提升预测结果的准确性和泛化能力
投票方式得出结论
集成学习中 - 君子和而不同 - 泛化能力小于50%,预测结果有一定的差异性
集成个体学习器的收敛性保证:
H(x) - 输出,f(x) 样本x的真实标签,ε 个体学习器的泛化误差,k是预测成果的概率,T 个体学习器数量
H(x) ≠ f(x) - 集成学习的结果和真实结果不一致的概率
由于结果≤右侧,右侧 T/(1-2ε)² 越大,整体值越小。因此得到两个基本结论:
- 收敛速率随着个体学习器数量T呈指数上升
- ε=0.5的个体集成器对收敛没有作用 - 值为0了 - ε>0.5或ε<0.5均可使收敛速率变大 - 个体泛化误差不能等于0.5
AdaBoost
T个个体学习器和相应的权重 - 求加权和
能够最小化损失函数
因为f(x),H(x)要么为1,要么为-1 - 则f(x)H(x) 只有两种可能情况 - 1/-1
当f(x) = H(x) - 要么都取1,要么都取-1 - 结果为e^-1
当f(x) ≠ H(x) - 结果为e^1
希望结果是正确的比例远远大于结果是错的 - 即调整上式中h(x)的权重
AdaBoost优化
前向分布求解算法 - 迭代求解 - 每一轮只学习一个学习器和相应的权重,第t轮的优化目标
得到最优的α,h
求期望转成频率累加 - 因为平均值也可转化成求数值乘该数值出现的频率和
f(x)和h(x)仅可取值{-1,1}
要求其最小值 - 求偏导 - 得对应权重