SGQN 论文阅读

63 阅读4分钟

0 论文信息

1.介绍

  在本项工作中,作者提出了一种新颖的方法,该方法鼓励智能体有效地识别关键输入像素,并加强策略对这些像素的依赖性。简单来说,作者鼓励智能体关注并自觉地意识到它在输入图像中查看的位置,以便使其决策策略更加集中在重要区域,对模糊或分散注意力的像素不那么敏感。这一意图体现在通用的显著性引导的 Q 网络 (SGQN) 方法中,该方法可以应用于任何基于近似值迭代的深度强化学习 (RL) 算法。SGQN 依赖于两个核心机制。首先,它通过一个一致性项来规范值函数的学习过程,鼓励值函数优先依赖于被识别为决定性的像素。第二个机制推动智能体自觉地了解哪些像素负责做出决策,并将这些信息编码在提取的特征中。这第二个机制转化为一个自监督学习目标,智能体训练自己预测其 Q 值的显著性图。反过来,这改善了值函数学习阶段的规范化,为自监督学习阶段提供了更好的标签,总体上形成了一个良性的改进循环。

  SGQN 是一种简单且通用的方法,它允许在实现两个核心机制的方式上有许多变体。在本文中,作者展示了将 SGQN 应用于软演员-评论家智能体 (soft actor-critic agents) 可以显著提高它们在 DMControl 泛化基准测试上的性能,这是一个用于评估连续动作强化学习 (RL) 中泛化能力的标准化测试基准。SGQN 已经在没有干扰的领域中提高了这类智能体的训练效率。但最重要的是,它在泛化性能方面树立了新的最高标准,特别是在以前的方法因混淆因素而特别困难的基准测试中。其同时有一个额外的好处,它还在运行时提供了对自己决策的解释,以可解释的归因图的形式呈现,无需额外成本,也无需计算特别的显著性图,这在可部署的强化学习追求中是另一个理想属性。

2.背景及相关工作

  在此进行大致列出,因为比较了解,不做过多赘述。

  • 强化学习 (RL)
  • 强化学习的弱泛化能力
  • 强化学习中的泛化衡量
  • 正则化
  • 数据增强
  • 表征学习

3 Saliency-guided Q-networks

图 1. SGQN 损失. LSLL_{SL} 自监督损失训练 fθf_{\theta} 使得 Mθ(fθ(τ(s)),a)M_\theta\left(f_\theta(\tau(s)), a\right) 预测 Mρ(Qθfθ,s,a)M_\rho\left(Q_\theta \circ f_\theta, s, a\right)。反过来,LCL_C 一致性损失推动 QθfθQ_\theta \circ f_\theta 只依赖于显著像素。

  本文所提出的方法建立在经典的 Q-网络架构之上。价值函数分为两部分 : 编码器 fθ:SZf_\theta: \mathcal{S} \rightarrow \mathcal{Z} 和建立在该编码器之上的 Q-函数 Qθ:Z×ARQ_\theta: \mathcal{Z} \times \mathcal{A} \rightarrow \mathbb{R}。作者在特征编码器 fθf_{\theta} 之后添加了一个解码器函数 MθM_{\theta},使得 Mθ(fθ(s),a)M_\theta\left(f_\theta(s), a\right) 旨在预测 Qθ(fθ(s),a)Q_\theta\left(f_\theta(s), a\right) 的归因图。许多算法需要定义两个评判网络或目标网络 fϕf_{\phi}QϕQ_{\phi},它们通常使用 θ\theta 的指数移动平均进行更新。为了清楚起见,作者在这里省略了它们,尽管它们在 SGQN 中的介绍很简单。在需要时,在编码器 fθf_{\theta} 之上构建策略头 πθ:ZA\pi_\theta: \mathcal{Z} \rightarrow \mathcal{A} 来定义演员网络。主干架构和训练过程如图 1 所示。 SGQN 训练过程涉及两个额外的目标 : 负责正则化评论家更新和辅助监督学习目标的一致性目标。

一致性正则化目标 (图 1 中的右半部分,主要负责通过 s~\tilde{s}QQ 获得更不环境依赖的价值函数) LC(θ)=Es,a[[Qθ(fθ(s),a)Qθ(sMρ(Qθfθ,s,a),a)]2]L_C(\theta)=\mathbb{E}_{s, a}\left[\left[Q_\theta\left(f_\theta(s), a\right)-Q_\theta(s \odot\left.M_\rho\left(Q_\theta \circ f_\theta, s, a\right), a\right)\right]^2\right] (其中 \odot 表示 Hadamard乘积),被添加到批评家更新阶段的经典批评损失 LQ(θ)L_Q(\theta)。该损失函数鼓励 Q-网络 QθfθQ_\theta \circ f_\theta 根据 M(Q,s,a)M(Q, s, a) 中的显著像素优先做出决策,从而促进掩模图像和原始图像之间的一致性。因此,新的批评目标函数定义为 LQ(θ)+λLC(θ)L_Q(\theta)+\lambda L_C(\theta)

自监督学习阶段 (图 1 中的左半部分,主要负责自监督以获取一个准确的增强状态 s~\tilde{s}) 更新 fθf_{\theta} 的参数,使给定一个通用图像增强函数 τ\tau,其中 (fθ(τ(s)),a)\left(f_\theta(\tau(s)), a\right) 包含足够的信息来准确地重建归因掩码 Mρ(Qθ,s,a)M_\rho\left(Q_\theta, s, a\right)。这定义了一个自监督学习目标函数 LSL(θ)=Es,a[BCE(Mθ(fθ(τ(s),a),Mρ(Qθ,s,a)))]L_{S L}(\theta)=\mathbb{E}_{s, a}\left[B C E\left(M_\theta\left(f_\theta(\tau(s), a), M_\rho\left(Q_\theta, s, a\right)\right)\right)\right],其中 BCEBCE 是二元交叉熵损失,可以用属性图之间任何其他差异度量代替。

  结合 SAC 的工作,作者得到了下图所示的算法 1

4.实验结果

  略

5.读后感想

  整篇文章读下来我非常喜欢,这是一个尝试用更好的工程结构来分块增强解决问题的解决方案,感觉对我有一定的启发。以后还是要慢慢尝试把论文看得更明白总结得更精简一些。