域自适应的理解(简单易懂)

231 阅读3分钟

本文正在参加「金石计划 . 瓜分6万现金大奖」

推荐阅读文章 对抗思想在域适应中的应用: ——Adversarial Multiple Source Domain Adaptation(2018) ——DANN:Unsupervised Domain Adaptation by Backpropagation(2015) —— DANN:Domain-Adversarial Training of Neural Networks(2016) 多源域适应: ——Boosting for transfer learning with multiple sources(2010) ——Adversarial Multiple Source Domain Adaptation(2018) ——Aligning Domain-Specific Distribution and Classifier for Cross-Domain Classification from Multiple Sources(2019) 部分文章已上传资源,可免费获取~


领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种特殊情况,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利用其它领域数据来增强目标领域训练。

域适应的引入

在经典的机器学习模型中,我们习惯性假设训练数据集和目标训练集有着相同的概率分布。而在现实生活中,这种约束性假设很难实现。当训练数据集和测试集有着巨大差异时,很容易出现过拟合的现象,使得训练的模型在测试集上表现不理想。

举个栗子,假设训练数据集是各种英短蓝猫,而想训练得到可以区分田园猫的模型,该模型相比于英短蓝猫识别情况性能会下降。当训练数据集和测试数据集分布不一致的情况下,通过在训练数据集上按经验误差最小准则训练得到的模型在测试数据集上性能不佳,因此,我们引入了==域适应==技术。

例如,我们有时在一个感兴趣的领域中有一个分类任务,但是在另一个感兴趣的领域中我们只有足够的训练数据,在另一个领域中,后者可能位于不同的特征空间或遵循不同的数据分布。在这种情况下,如果成功地进行知识迁移,就可以避免昂贵的数据标记工作,从而大大提高学习性能。

域适应方法分类

域适应(Domain Adaptation)是迁移学习中比较流行的一个分支,它是通过利用训练数据集训练得到的知识,提高模型在测试数据集上的表现性能。

域适应中有两个基础概念:==源域==(Source Domain)和==目标域==(Target Domain)。源域中有着丰富的监督学习信息;目标域表示测试集所在的领域,通常无标签或者只含有少量的·标签。源域和目标域往往是同一类任务,但是分布不同。

现实世界当中这个问题又分为不同的类型: 1、数据分布相同,条件分布不同且相关 2、数据分布不同且相关,条件分布相同 3、数据分布和条件分布都不同且相关

通过在不同阶段进行域适应,研究者提出了几种不同的域适应方法:

1、样本自适应:将源域中样本重采样,使其分布趋近于目标域分布;从源域中找出那些长的最像目标域的样本,让他们带着高权重加入目标域的数据学习。

2、特征层面自适应:与一般的将源域映射到目标域方法不同,该类方法将源域和目标域投影到==公共特征子空间==,进而使得源域上的训练知识可以直接应用于目标域;

3、模型层面自适应:对源域误差函数进行修改,考虑到目标与的误差。

潜下心,沉住气~

参考

www.cnblogs.com/LiYimingRoo… www.cnblogs.com/Terrypython…