这里只是对这篇文章的核心思想部分进行了总结归纳思考,具体的应用部分并未详细列出。
核心问题
机器学习中很大一部分的核心问题都在于误差分析,少样本也不例外,最核心的东西就是对误差的分析。按照机器学习的方式将few shot learning
中的误差进行分解,然后进行分析。
给定假设hypothesis
,机器学习要做的事情就是最小化期望风险(expected risk
) :
但是并不知道,因此往往采用从training set
中sample
一些样本来计算经验风险(empirical risk
):
然后通过empirical risk
最小化来找到。针对不同的假设有:
- 是最小化期望风险函数。
- 是在下的期望风险函数,或者说是在下的最好近似。
- 是在下的经验风险函数。
整个误差就可以表示为:
可以通过sample
大量的数据来减小,但是在few shot learning
中数据很少,这一项的误差会比较大:
少样本学习的解决办法
因为empirical risk minimizer
已经不可信了,因此必须引入先验知识(prior knowledge
)来降低这个误差,大体上可以分为三个部分,从数据角度。从模型角度、从算法角度做改进:
- Data:对训练数据做数据增强,增加训练样本数量,将样本数量从变到,其中,因此就能获得在下的
empirical risk minimizer
。self-supervise learning
也属于这一类。也有提出AutoAugment
4算法。这种方法一般用于图像,而对于文本,语音等方面没有太多应用。
J. Wei and K. Zou. 2019. EDA: Easy data augmentation techniques for boosting performance on text classification tasks. In Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing. 6383–6389.(思考:能否用于trajector
的数据增强?)
-
Model:利用先验知识约束的复杂性,从而得到一个更易优化的假设,使得在下小样本能够获得一个可信的。1,2,3,迁移学习,预训练,
Multitask learning
就是这种方法。 -
Algorithm:这种方式就是元学习的方法,通过先验知识提供一个初始化参数(上图
c
中的灰色三角形),或者提供一个梯度搜索方向(上图c
中的灰色虚线箭头)。
文献
参考
- Generalizing from a Few Examples: A Survey on Few-Shot Learning