抽象的增强学习(RL)与环境相互作用,以通过反复试验解决顺序决策问题。错误在现实世界中的应用程序总是不受欢迎的,即使RL擅长玩复杂的视频游戏,这些游戏允许进行多次试用和错误尝试。为了提高样本的效率并减少错误,基于模型的加固学习(MBRL)被认为是一个有前途的方向,因为它构建了可以在不产生实际成本的情况下进行反复试验的环境模型。在这项调查中,我们调查了MBRL,特别关注Deep RL的最新进展。在非尾环环境的学习模型与实际环境之间存在概括性误差。因此,至关重要的是要分析环境模型中的政策培训之间的差异,即在实际环境中,指导算法设计,以改善模型学习,模型利用和政策培训。此外,我们讨论了其他形式的RL,例如offline rl,目标条件的RL,多代理RL和Meta-RL的最新发展。此外,我们讨论了MBRL对现实世界任务的适用性和收益。最后,这项调查结束了关于MBRL未来发展前景的讨论。我们认为,MBRL在现实世界中具有巨大的潜力和利益,我们希望这项调查将鼓励对MBRL的更多研究。
基于模型的增强学习(MBRL)是一种获得控制策略的样本有效技术,但不可避免的建模误差通常会导致性能恶化。MBRL中的模型通常仅用于重建动态,尤其是状态观察,而模型误差对策略的影响并未由培训目标捕获。这导致MBRL的目标目标之间的不匹配,实现良好的政策和价值学习,以及实践中采用的损失函数的目标,未来的国家预测。天真的直觉表明,价值感知的模型学习将解决这个问题,实际上,已经基于理论分析提出了针对该客观不匹配问题的第二种解决方案。但是,在实践中,它们往往不如通常使用的最大可能性(MLE)方法。在本文中,我们提出了价值梯度加权模型损失(VAGRAM),这是一种新颖的价值模型学习方法,可改善MBRL在具有挑战性的环境中的性能,例如小型模型容量和分散注意力的状态尺寸。我们分析了MLE和值感知的方法,并演示了他们如何在学习价值吸引模型时无法解释样本覆盖范围和功能近似的行为。fom,我们强调了在深度学习环境中稳定优化的其他目标。为了实现这一目标,我们利用经验值函数的梯度作为对RL算法对模型误差的敏感性的量度。我们通过表明我们的损失函数能够在Mujoco基准套件上获得高回报来验证我们的分析,同时比基于最大似然的方法更健壮。
摘要 - 这封信研究了基于网格形成的安全强化学习策略(GFM)基于逆变器的频率调节。确保在学识渊博的控制策略下基于逆变器的资源(IBR)系统的稳定性,将基于模型的加固学习(MBRL)技术与Lyapunov方法相结合,该方法决定了国家和行动的安全区域。为了获得接近最佳的控制策略,使用从吸引力区域(ROA)采样的数据,可以通过近似动态编程(ADP)安全地改善控制性能。此外,为了增强对逆变器中参数不确定性的控制鲁棒性,提议的MBRL采用了高斯过程(GP)模型,以从测量中有效地学习系统动力学。数值模拟验证了所提出的方法的有效性。
摘要 - 这项研究提出了一种创新的方法,可用于由四个可压缩肌腱驱动的软执行器启用的软四倍机器人的最佳步态控制。柔软的四足机器人与刚性的机器人相比,已广泛认可,可提供增强的安全性,较低的重量以及更简单的制造和控制机制。然而,它们的高度变形结构引入了非线性动力学,使得精确的步态运动控制复合物。为了解决这一问题,我们提出了一种基于模型的新型增强学习(MBRL)方法。该研究采用多阶段方法,包括国家空间限制,数据驱动的替代模型培训和MBRL开发。与基准方法相比,所提出的方法显着提高了步态控制策略的效率和性能。开发的策略既适合机器人的形态,既适合又有能力。这项研究结论是在实际情况下强调这些发现的实际适用性。索引术语 - 四倍的机器人,软执行器,增强学习,步态控制
利用大型和多样化数据集的无监督预训练方法已在多个领域取得了巨大成功。近期研究已针对基于模型的强化学习 (MBRL) 研究了此类无监督预训练方法,但仅限于特定领域或模拟数据。本文中,我们研究了使用丰富的自然视频预训练世界模型的问题,以便高效学习下游视觉控制任务。然而,自然视频具有各种复杂的情境因素,例如错综复杂的背景和纹理外观,这妨碍了世界模型提取共享的世界知识以更好地概括。为了解决这个问题,我们引入了情境化世界模型 (ContextWM),它明确地分离情境和动态建模,以克服自然视频的复杂性和多样性,并促进不同场景之间的知识转移。具体来说,我们精心实现了潜在动力学模型的上下文化扩展,通过引入上下文编码器来保留上下文信息并赋能图像解码器,从而促使潜在动力学模型专注于关键的时间变化。我们的实验表明,搭载 ContextWM 的野外视频预训练可以显著提升 MBRL 在机器人操控、运动和自动驾驶等多个领域的采样效率。代码可从以下代码库获取:https://github.com/thuml/ContextWM。
在本文中,我们在数值模拟中实施和研究一种基于模型的增强学习(MBRL)方法,称为自适应光学(PO4AO)的策略优化。我们使用面向对象的Python自适应光学(OOPAO)模拟工具来模拟Provence自适应光学元件金字塔运行系统(Papyrus)光学台,并提供系统的实时模型。尤其是我们证明了该方法的预测能力,因为时间误差主导了木瓜的误差预算。我们首先介绍了强化学习框架的详细描述,包括我们对状态空间,行动空间和奖励功能的定义。实验部分将PO4AO与在不同大气条件下调整良好的积分器进行了比较。总而言之,在将方法应用于实际望远镜和未来工作的可能途径之前,我们将讨论实验在数值模拟中的重要性。
模仿世界模型推断中的实际相互作用轨迹已被证明可以提高基于模型的强化学习(MBRL)算法的样本效率。许多方法直接使用已知状态序列进行推理。但是,这种方法无法通过捕获状态之间的细微差异来提高推理的质量。很像人类如何从这种差异中推断出事件发展的趋势,在这项工作中,我们引入了基于AMBA的世界模型(GLAM),从而通过感知和预测国家之间的变化来提高推理质量。GLAM包括两个基于MAMBA的平行推理模块Gmamba和Lmamba,它们分别着重于在推理过程中从全球和Local观点感知差异。gmamba专注于识别输入序列中状态之间的变化模式,并利用这些模式来增强未来状态变化的预测。lmamba强调通过感知相邻状态的差异,强调有关未知信息的推理,例如奖励,终止信号和视觉表示。通过整合两个模块的优势,魅力四射是环境变化的较高价值变化,从而为代理提供了更有效的基于想象力的训练。我们认为,我们的方法在Atari 100k基准上的非恶意人类得分中的现有方法优于现有方法。