0 论文信息

1.介绍

在本项工作中，作者提出了一种新颖的方法，该方法鼓励智能体有效地识别关键输入像素，并加强策略对这些像素的依赖性。简单来说，作者鼓励智能体关注并自觉地意识到它在输入图像中查看的位置，以便使其决策策略更加集中在重要区域，对模糊或分散注意力的像素不那么敏感。这一意图体现在通用的显著性引导的 Q 网络 (SGQN) 方法中，该方法可以应用于任何基于近似值迭代的深度强化学习 (RL) 算法。SGQN 依赖于两个核心机制。首先，它通过一个一致性项来规范值函数的学习过程，鼓励值函数优先依赖于被识别为决定性的像素。第二个机制推动智能体自觉地了解哪些像素负责做出决策，并将这些信息编码在提取的特征中。这第二个机制转化为一个自监督学习目标，智能体训练自己预测其 Q 值的显著性图。反过来，这改善了值函数学习阶段的规范化，为自监督学习阶段提供了更好的标签，总体上形成了一个良性的改进循环。

SGQN 是一种简单且通用的方法，它允许在实现两个核心机制的方式上有许多变体。在本文中，作者展示了将 SGQN 应用于软演员-评论家智能体 (soft actor-critic agents) 可以显著提高它们在 DMControl 泛化基准测试上的性能，这是一个用于评估连续动作强化学习 (RL) 中泛化能力的标准化测试基准。SGQN 已经在没有干扰的领域中提高了这类智能体的训练效率。但最重要的是，它在泛化性能方面树立了新的最高标准，特别是在以前的方法因混淆因素而特别困难的基准测试中。其同时有一个额外的好处，它还在运行时提供了对自己决策的解释，以可解释的归因图的形式呈现，无需额外成本，也无需计算特别的显著性图，这在可部署的强化学习追求中是另一个理想属性。

2.背景及相关工作

在此进行大致列出，因为比较了解，不做过多赘述。

强化学习 (RL)
强化学习的弱泛化能力
强化学习中的泛化衡量
正则化
数据增强
表征学习

3 Saliency-guided Q-networks

图 1. SGQN 损失. $L_{SL}$ 自监督损失训练 $f_{\theta}$ 使得 $M_\theta\left(f_\theta(\tau(s)), a\right)$ 预测 $M_\rho\left(Q_\theta \circ f_\theta, s, a\right)$ 。反过来， $L_C$ 一致性损失推动 $Q_\theta \circ f_\theta$ 只依赖于显著像素。

本文所提出的方法建立在经典的 Q-网络架构之上。价值函数分为两部分 : 编码器 $f_\theta: \mathcal{S} \rightarrow \mathcal{Z}$ 和建立在该编码器之上的 Q-函数 $Q_\theta: \mathcal{Z} \times \mathcal{A} \rightarrow \mathbb{R}$ 。作者在特征编码器 $f_{\theta}$ 之后添加了一个解码器函数 $M_{\theta}$ ，使得 $M_\theta\left(f_\theta(s), a\right)$ 旨在预测 $Q_\theta\left(f_\theta(s), a\right)$ 的归因图。许多算法需要定义两个评判网络或目标网络 $f_{\phi}$ 和 $Q_{\phi}$ ，它们通常使用 $\theta$ 的指数移动平均进行更新。为了清楚起见，作者在这里省略了它们，尽管它们在 SGQN 中的介绍很简单。在需要时，在编码器 $f_{\theta}$ 之上构建策略头 $\pi_\theta: \mathcal{Z} \rightarrow \mathcal{A}$ 来定义演员网络。主干架构和训练过程如图 1 所示。 SGQN 训练过程涉及两个额外的目标 : 负责正则化评论家更新和辅助监督学习目标的一致性目标。

一致性正则化目标 (图 1 中的右半部分，主要负责通过 $\tilde{s}$ 让 $Q$ 获得更不环境依赖的价值函数) $L_C(\theta)=\mathbb{E}_{s, a}\left[\left[Q_\theta\left(f_\theta(s), a\right)-Q_\theta(s \odot\left.M_\rho\left(Q_\theta \circ f_\theta, s, a\right), a\right)\right]^2\right]$ (其中 $\odot$ 表示 Hadamard乘积)，被添加到批评家更新阶段的经典批评损失 $L_Q(\theta)$ 。该损失函数鼓励 Q-网络 $Q_\theta \circ f_\theta$ 根据 $M(Q, s, a)$ 中的显著像素优先做出决策，从而促进掩模图像和原始图像之间的一致性。因此，新的批评目标函数定义为 $L_Q(\theta)+\lambda L_C(\theta)$ 。

自监督学习阶段 (图 1 中的左半部分，主要负责自监督以获取一个准确的增强状态 $\tilde{s}$ ) 更新 $f_{\theta}$ 的参数，使给定一个通用图像增强函数 $\tau$ ，其中 $\left(f_\theta(\tau(s)), a\right)$ 包含足够的信息来准确地重建归因掩码 $M_\rho\left(Q_\theta, s, a\right)$ 。这定义了一个自监督学习目标函数 $L_{S L}(\theta)=\mathbb{E}_{s, a}\left[B C E\left(M_\theta\left(f_\theta(\tau(s), a), M_\rho\left(Q_\theta, s, a\right)\right)\right)\right]$ ，其中 $BCE$ 是二元交叉熵损失，可以用属性图之间任何其他差异度量代替。

结合 SAC 的工作，作者得到了下图所示的算法 1。

4.实验结果

略

5.读后感想

整篇文章读下来我非常喜欢，这是一个尝试用更好的工程结构来分块增强解决问题的解决方案，感觉对我有一定的启发。以后还是要慢慢尝试把论文看得更明白总结得更精简一些。

SGQN 论文阅读