强化学习奖励结构扩展与约束RL框架

4 阅读8分钟

在本次系列采访中,我们与AAAI/SIGAI博士联盟的参与者会面,以深入了解他们的研究。Tanmay Ambadkar正在研究强化学习中的奖励结构,旨在提供具有稳健保证且易于部署的通用解决方案。我们采访了Tanmay,以了解他的研究,特别是他一直在研究的约束强化学习框架。

请介绍一下你的博士研究——你在哪里学习,研究主题是什么?

我是美国宾夕法尼亚州立大学的四年级博士生。我的导师是Abhinav Verma博士。虽然我还没有最终确定论文的标题,但我倾向于将其命名为“强化学习中奖励结构的扩展”。

能否概述一下你在博士期间进行的研究?

我的研究旨在超越作为强化学习基础的马尔可夫奖励结构。大多数强化学习问题假设奖励是一个单一值,用于指示当前时间步长的表现如何。这就是马尔可夫结构,其中历史记录无关紧要。这对于许多(如果不是大多数)现实世界的强化学习问题来说并不适用。我的研究重点是利用线性时序逻辑扩展奖励函数,使其能够具有非马尔可夫属性,从而允许用户定义安全约束或规划路径。这些规范被编码为奖励信号,智能体可以利用该信号来解决手头的任务。此外,我们转向向量奖励,其中每个通道定义一个不同的目标,用户可以根据自己的偏好进行选择。然后,策略必须根据提供的偏好改变其行为,从而形成策略的帕累托前沿。最后,我们探索是否可以在这些向量奖励的基础上允许非马尔可夫结构,这使我们能够定义有趣的非线性效用函数,从而打破基本的贝尔曼属性假设。

你的研究中是否有特别有趣的方面?

我想重点介绍一下我们一直在研究的约束强化学习框架。具体来说,我们解决了在环境的状态特征上定义硬安全约束的问题,这些约束不仅在训练后必须遵守,而且在训练过程中也必须遵守。大多数约束强化学习框架可以在训练后提供保证,但在训练过程中发生大量违规行为后才学会安全。在我们操作的特定设置中,一旦智能体不安全,我们就终止它。同时,安全信号是二进制的,智能体只有在不安全时才会收到它。这给现有的强化学习框架(如CPO、CUP、Saute RL)带来了重大挑战,我们在实验中表明,这些框架完全失败了。

我们转向神经符号技术。具体来说,我们研究控制理论中使用的形式化方法,看看是否可以将它们应用于强化学习。现有的形式化方法+强化学习工作已经显示出非常有前景的性能,但它们会随着状态维度的增加而遭受计算爆炸的问题。具体来说,它们在拥有转移函数的不切实际的假设下运行,并且处理的状态空间非常小(小于10维)。我们借鉴了控制理论中的两个基本进展:Koopman算子和控制屏障函数。Koopman算子理论非常有趣,它表明我们可以通过在高维空间中找到函数将高度非线性的动力学近似为全局线性算子,从而恢复线性特性。这在形式化方法中从未尝试过,其假设是需要使用瓶颈空间或线性模型的拼凑。

我们提出了使用具有最弱前提条件的Koopman算子,表明我们可以将安全性扩展到17维。然而,这仍然不是最佳结果。我们开始着手创建控制屏障函数。控制屏障函数就像一个力场,允许你尽可能快地接近屏障,但当你靠近时,力场会开始排斥你。控制理论研究将在已知动力学的假设下为特定用例构建控制屏障函数,而这是我们在强化学习中无法做到的。此外,它也不适用于离散的强化学习环境。

我们提出了第一个多步鲁棒控制屏障函数,称为RAMPS(ICLR 2026)。我们学习线性动力学(简单的线性回归也可以),并近似一步预测的高百分位误差界限(第99百分位),从而创建一个鲁棒的屏障函数,它可以向前看多个步骤并防止违规。这可以防止现在采取不安全的行为,而这种行为会在未来几步内违反安全性。RAMPS是第一个将安全性扩展到348维状态空间(如Ant和Humanoid)且具有高度非线性动力学的方法,同时速度极快(亚毫秒级响应时间)。使用RAMPS,我们在实现奖励性能提高10倍的同时,安全违规减少了90%。这是第一种允许强化学习+形式化方法理论应用于现实世界机器人的方法,我们目前正着手尝试。

在博士期间,你计划如何在你目前的研究基础上继续发展?接下来你将研究哪些方面?

在约束强化学习框架的基础上,我们已经展示了其可扩展性达到348维。虽然这使得它适用于许多问题,但它无法处理视觉问题。对于视觉数据,无法在状态空间上定义约束,因为状态空间由像素组成。现在的约束必须基于隐藏的模拟器状态(部分可观测)并编码为成本函数。我们正在寻求将控制屏障理论扩展到视觉领域,并展示形式化方法技术对所有问题类别都非常有用,并提供极其稳健的理论保证。

除此之外,我们还想解决安全稀疏成本的根本问题,这使得学习一个良好的策略极其困难。我们想看看是否可以将形式化方法理论应用于生成密集的成本信号,以告知这些拉格朗日策略在当前位置上可能不明显的即将发生的危险。最后,我希望致力于将我所有的工作扩展到大型语言模型。大型语言模型由于其庞大的规模和相对较少的理解,是出了名的难以处理的模型。凭借我对强化学习理论和奖励函数的了解,我想探索是否可以通过修改某些属性或融入神经符号架构的元素来在大型语言模型中引发期望的行为。我还想看看我是否能将我在强化学习方面的专业知识应用于更好的对齐算法。

是什么让你想研究人工智能,特别是可信人工智能领域?

自从我第一次看到电脑以来,我就对技术着迷。我喜欢机器人,并设想一个自主的未来,但像《我,机器人》这样的电影让我意识到,我们需要可信的人工智能来确保我们不会造成伤害。

我要感谢我的家人向我介绍了硬件(树莓派),它教会了我如何编程以及其在现实世界中的影响。为了实践我对机器人的热爱,我接触了机器学习,并最终选择了强化学习——被一个系统仅利用反馈就能学会执行任务的想法所吸引。

这条道路引导我攻读人工智能的高级学位。我的导师向我介绍了限制强化学习在现实世界中应用的根本挑战,这使我转向研究可信人工智能。我期待探索其他应用,以确保人工智能始终是安全的。

你能告诉我们一个关于你的有趣的(非人工智能相关的)事实吗?

我喜欢音乐,我会弹钢琴。我主要通过YouTube视频自学,终于能够凭听力弹奏几乎任何歌曲了(耶)!一个不太为人所知的事实(一个相当保守的秘密)是我曾经混音并将作品发布在YouTube上,以此开启DJ生涯。

关于Tanmay Ambadkar

我是美国宾夕法尼亚州立大学的博士生。我的研究探索奖励函数的各种可能性,以将强化学习扩展到可能不遵循标准强化学习属性的众多现实世界用例。我将深度强化学习与形式化方法理论相结合,以提供可信赖且可解释的神经符号解决方案。我的目标是能够提供具有稳健保证且易于部署的通用解决方案。FINISHED