【前沿热点顶会】NIPS/NeurIPS 2024中与强化学习有关的论文

基于Transformer的轨迹优化方法在离线强化学习(Offline RL)中表现出了优异的性能，但由于其庞大的参数大小和有限的可扩展性，这在资源受限的顺序决策场景中尤其关键，例如在计算能力有限的机器人和无人机中。然而，尽管 MPS 在训练过程中和训练后都能确保安全，但由于备份策略的保守性和任务无关的性质，它经常阻碍任务的进展，提出了动态模型预测屏蔽(DMPS)，它在保持可证明的安全性的同时优化

多想常做

1384人浏览 · 2024-10-03 11:45:47

多想常做 · 2024-10-03 11:45:47 发布

REbel：通过回归相对回报的强化学习

虽然最初是为连续控制问题而开发的，但最近策略优化(PPO)已经成为各种强化学习(RL)应用的主力，包括产生式模型的微调。不幸的是， PPO 需要多个启发式方法来实现稳定的收敛(例如，值网络、剪裁)，并且因其对这些组件的精确实现的敏感性而臭名昭著。作为回应，我们退一步问，在生成模型时代，极简主义的 RL 算法会是什么样子。我们提出了 Revert 算法，它干净利落地减少了策略优化问题，将两次完成之间的相对回报回归为策略方面的提示，从而实现了惊人的轻量级实现。在理论上，我们证明了基本的 RL 算法，如自然策略梯度，可以被视为 Revert 的变体，这使我们能够在收敛和样本复杂性方面达到 RL 文献中已知的最强理论保证。Revert 还可以干净利落地合并离线数据，并进行扩展以处理我们在实践中经常看到的不可传递的偏好。通过实验，我们发现 Revert 提供了一种统一的语言建模和图像生成方法，其性能比 PPO 和 DPO 更强或更接近，同时实现更简单，计算效率更高。

联合集成引导的离线强化学习

我们考虑了联合离线强化学习(RL)问题，在这种情况下，分布式学习代理必须只使用根据不同未知行为策略生成的预先收集的小数据集来协作学习高质量的控制策略。针对这一问题，我们提出了一种基于联邦集成的离线强化学习算法(FEDRA)，该算法通过集成学习的方式提取客户的集体智慧。我们开发了 FEDRA 代码库来利用联邦学习平台上的分布式计算资源。在各种复杂的连续控制环境和真实世界的数据集上， FEDRA 的性能明显优于其他方法，包括组合数据池上的离线 RL。最后，我们在移动机器人上展示了 FEDRA 的性能。

Mamba 与离线强化学习中的轨迹优化兼容吗？

基于Transformer的轨迹优化方法在离线强化学习(Offline RL)中表现出了优异的性能，但由于其庞大的参数大小和有限的可扩展性，这在资源受限的顺序决策场景中尤其关键，例如在计算能力有限的机器人和无人机中。 Mamba 是一种很有前途的新型线性时间序列模型，它提供了与变压器相当的性能，同时在长序列上提供的参数要少得多。由于目前尚不清楚 Mamba 是否与轨迹优化兼容，本工作旨在从数据结构和网络体系结构的角度来探索决策 Mamba 在离线 RL(称为 DEMA)中的潜力，并获得以下见解： (1)由于 DEMA 对序列的关注度近似指数下降，长序列增加了显著的计算负担，但并不有助于提高性能。因此，我们引入了一个类似Transforme的 Dema，而不是一个类似 RNN 的 Dema。 (2)对于 DEMA 的组成部分，我们认为隐藏的注意机制是其成功的关键，它也可以与其他残差结构很好地协同工作，并且不需要位置嵌入。来自 8 个 Atari 游戏的广泛评估表明，我们特别设计的 DEMA 与轨迹优化兼容，并超过了以前最先进的方法，以更少的参数超过决策变压器(DT)80%，而仅以四分之一的参数超过 MuJoCo 的 DT。

排除不相关的内容：通过持续动作掩蔽来关注强化学习

强化学习中的连续动作空间通常被定义为区间集，虽然区间通常能很好地反映任务的动作边界，但由于通常较大的全局动作空间导致频繁地探索不相关的动作，因此对学习来说可能是具有挑战性的。然而，几乎没有任务知识足以识别明显较小的特定于国家的相关行动集。将学习重点放在这些相关动作上，可以显著提高培训效率和效果。在本文中，我们建议将学习的重点放在相关动作集上，并介绍了三种将动作空间精确映射到依赖于状态的相关动作集的连续动作掩蔽方法。因此，我们的方法确保只执行相关的操作，从而增强增强 RL 试剂的可预测性，并使其能够在安全关键应用中使用。我们进一步推导了所提出的方法对政策梯度的影响。通过使用最
近策略优化(PPO)，我们在三个控制任务上对我们的方法进行了评估，其中相关动作集是基于系统动力学和相关状态集来计算的。我们的实验表明，这三种动作掩蔽方法获得了比无动作掩蔽的基线更高的最终回报和更快的收敛速度。

基于扩散的课程强化学习

课程强化学习(CRL)是一种通过按复杂程度递增的顺序组织任务来简化智能体学习过程的方法。尽管有潜力，但许多现有的 CRL 方法难以有效地指导代理获得预期的结果，特别是在缺乏领域知识的情况下。介绍了一种利用条件扩散模型生成课程目标的新方法 DiCuRL(DiCuRL)。为了估计代理距离实现其目标有多近，我们的方法在扩散模型中独特地结合了一个Q QQ函数和一个基于对抗性内在动机的可训练奖励函数。此外，它通过扩散模型中存在的固有噪声和去噪机制来促进探索，并且与环境无关。这种组合允许生成具有挑战性但可实现的目标，使代理能够在不依赖领域知识的情况下有效地学习。我们在 MuJoCo 中模拟的三个不同的迷宫环境中演示了DiCuRL 的有效性，在这些环境中，它的性能优于或匹配文献中的九种最先进的CRL 算法。

用于可证明安全的强化学习的动态模型预测屏蔽

在可证明安全的强化学习方法中，模型预测屏蔽(MPS)已被证明在连续的高维状态空间中的复杂任务中有效，它利用备份策略来确保在学习的策略试图采取危险动作时的安全性。然而，尽管 MPS 在训练过程中和训练后都能确保安全，但由于备份策略的保守性和任务无关的性质，它经常阻碍任务的进展，提出了动态模型预测屏蔽(DMPS)，它在保持可证明的安全性的同时优化了强化学习目标。 DMPS 雇佣了一名当地规划者来动态选择安全的恢复行动，使短期进展和长期回报最大化。至关重要的是，规划者和神经政策在 DMPS 中发挥着协同作用。当计划恢复行动以确保安全时，规划者利用神经策略来估计长期回报，使其能够在短期计划范围之外进行观察。相反，被训练的神经策略从规划者提出的恢复计划中学习，在实践中收敛到既高效又安全的策略，该方法保证了训练期间和训练后的安全性，并且有界的恢复遗憾随着规划范围深度的增加而指数下降。实验结果表明， DMPS 在训练后收敛到很少需要屏蔽干预的策略，并且与几个最先进的基线相比获得了更高的回报。

使用前瞻信息的强化学习

我们研究强化学习(RL)问题，在该问题中，代理在决定采取哪种行动之前，观察其当前状态的奖励或过渡实现。这样的观测在许多应用中都可用，包括交易、导航等。以前的工作表明，在已知环境的情况下，这种先行信息可以大幅增加收集的奖励。然而，在具体应用之外，现有的与未知环境相互作用的方法并不能很好地适应这些观察。在这项工作中，我们缩小了这一差距，并设计了能够结合先行信息的可证明有效的学习算法。为了实现这一点，我们使用奖励和过渡观察的经验分布来执行规划，而不是只依赖估计预期的普通方法。我们证明，与也可以访问先行信息的基线
相比，我们的算法实现了严格的后悔–与无法处理先行信息的代理相比，线性增加了收集的奖励数量。

通过约束优化利用启发式进行深度强化学习

在许多强化学习(RL)应用中，将启发式信号与准确的任务目标结合在一起对于获得期望的性能至关重要。然而，启发式有时会导致针对确切任务目标的偏颇和次优策略。提高绩效的常见策略包括修改培训目标，以确保启发式和精确任务目标的最优策略保持不变。尽管如此，这些策略在有限训练数据的实际场景中往往表现不佳。本文探索了在有限数据环境下使用启发式信号来提高任务性能的替代方案。我们的目标不是确保最优策略不变性，而是训练一种超过仅用启发式训练的策略。我们提出了一种以启发式策略为参考的约束优化过程，以确保学习的策略在准确的任务目标上总是优于启发式策略。我们在机器人移动、直升机和操纵任务上的实验表明，
无论启发式信号的总体有效性如何，该方法都能持续提高性能。