0 论文信息
1.介绍
在本项工作中,作者提出了一种新颖的方法,该方法鼓励智能体有效地识别关键输入像素,并加强策略对这些像素的依赖性。简单来说,作者鼓励智能体关注并自觉地意识到它在输入图像中查看的位置,以便使其决策策略更加集中在重要区域,对模糊或分散注意力的像素不那么敏感。这一意图体现在通用的显著性引导的 Q 网络 (SGQN) 方法中,该方法可以应用于任何基于近似值迭代的深度强化学习 (RL) 算法。SGQN 依赖于两个核心机制。首先,它通过一个一致性项来规范值函数的学习过程,鼓励值函数优先依赖于被识别为决定性的像素。第二个机制推动智能体自觉地了解哪些像素负责做出决策,并将这些信息编码在提取的特征中。这第二个机制转化为一个自监督学习目标,智能体训练自己预测其 Q 值的显著性图。反过来,这改善了值函数学习阶段的规范化,为自监督学习阶段提供了更好的标签,总体上形成了一个良性的改进循环。
SGQN 是一种简单且通用的方法,它允许在实现两个核心机制的方式上有许多变体。在本文中,作者展示了将 SGQN 应用于软演员-评论家智能体 (soft actor-critic agents) 可以显著提高它们在 DMControl 泛化基准测试上的性能,这是一个用于评估连续动作强化学习 (RL) 中泛化能力的标准化测试基准。SGQN 已经在没有干扰的领域中提高了这类智能体的训练效率。但最重要的是,它在泛化性能方面树立了新的最高标准,特别是在以前的方法因混淆因素而特别困难的基准测试中。其同时有一个额外的好处,它还在运行时提供了对自己决策的解释,以可解释的归因图的形式呈现,无需额外成本,也无需计算特别的显著性图,这在可部署的强化学习追求中是另一个理想属性。
2.背景及相关工作
在此进行大致列出,因为比较了解,不做过多赘述。
- 强化学习 (RL)
- 强化学习的弱泛化能力
- 强化学习中的泛化衡量
- 正则化
- 数据增强
- 表征学习
3 Saliency-guided Q-networks
图 1. SGQN 损失. 自监督损失训练 使得 预测 。反过来, 一致性损失推动 只依赖于显著像素。
本文所提出的方法建立在经典的 Q-网络架构之上。价值函数分为两部分 : 编码器 和建立在该编码器之上的 Q-函数 。作者在特征编码器 之后添加了一个解码器函数 ,使得 旨在预测 的归因图。许多算法需要定义两个评判网络或目标网络 和 ,它们通常使用 的指数移动平均进行更新。为了清楚起见,作者在这里省略了它们,尽管它们在 SGQN 中的介绍很简单。在需要时,在编码器 之上构建策略头 来定义演员网络。主干架构和训练过程如图 1 所示。 SGQN 训练过程涉及两个额外的目标 : 负责正则化评论家更新和辅助监督学习目标的一致性目标。
一致性正则化目标 (图 1 中的右半部分,主要负责通过 让 获得更不环境依赖的价值函数) (其中 表示 Hadamard乘积),被添加到批评家更新阶段的经典批评损失 。该损失函数鼓励 Q-网络 根据 中的显著像素优先做出决策,从而促进掩模图像和原始图像之间的一致性。因此,新的批评目标函数定义为 。
自监督学习阶段 (图 1 中的左半部分,主要负责自监督以获取一个准确的增强状态 ) 更新 的参数,使给定一个通用图像增强函数 ,其中 包含足够的信息来准确地重建归因掩码 。这定义了一个自监督学习目标函数 ,其中 是二元交叉熵损失,可以用属性图之间任何其他差异度量代替。
结合 SAC 的工作,作者得到了下图所示的算法 1。
4.实验结果
略
5.读后感想
整篇文章读下来我非常喜欢,这是一个尝试用更好的工程结构来分块增强解决问题的解决方案,感觉对我有一定的启发。以后还是要慢慢尝试把论文看得更明白总结得更精简一些。