UDRL

2025-01-29 机构名称:

颠倒的强化学习（UDRL）是解决强化学习问题的有前途的框架，该问题着重于学习命令condi

颠倒的强化学习（UDRL）是解决强化学习问题的有前途的框架，该问题着重于学习命令条件条件政策。在这项工作中，我们将UDRL扩展到学习深神经网络策略的命令条件发生器的任务。我们使用HyperNeTworks完成了这一点，这是一系列快速权重程序员，该程序学会解码输入命令，代表所需的预期返回到特定于命令的权重矩阵。我们的方法是通过策略生成器（UDRLPG）被称为颠倒的增强学习，通过消除评估者或评论家以更新生成器的权重来简化可比较的技术。为了抵消由于没有评估者而引起的最后回报的增加的差异，我们将缓冲液的采样概率与其中的绝对策略数量解脱出来，该策略与简单的权重策略一起改善了算法的经验收敛。与现有算法相比，UDRLPG实现了竞争性能和高回报，有时表现出色的架构更为复杂。我们的实验表明，受过训练的发电机可以概括以创建可实现零射击返回的策略。所提出的方法似乎有效缓解与学习高度模式功能相关的一些挑战。总的来说，我们认为UDRLPG代表了在RL中实现更高的经验样本效率方面迈出的前进一步。https://github.com/jacopod/udrlpg全面实现UDRLPG

查看详细

File

2024-10-24 机构名称:

颠倒 - 提升学习学习 -

摘要。无模型增强学习（RL）算法要么学习如何将状态映射到预期的奖励，要么搜索可以最大程度地提高某些性能功能的策略。基于模型的算法，旨在学习RL环境的基础模型的近似值，然后将其与计划算法结合使用。倒置强化学习（UDRL）是一种新颖的学习范式，旨在学习如何从国家和所需命令中预测行动。此任务是作为监督学习（SL）问题提出的，并已通过神经网络（NNS）成功解决。在本文中，我们研究了功能近似算法是否也可以在UDRL框架中使用。在几个流行的最佳控制基准上执行的我们的经验表明，基于树木的方法（如随机森林和极端的树木）的性能和NNS的性能一样，具有显着的好处，从而产生了固有的策略，这些政策本质上比NN更容易解释，因此为更多的透明，安全，安全和强大的，强大的，强大的RL铺平了道路。

查看详细

XiaoMi-AI文件搜索系统

UDRL

颠倒的强化学习（UDRL）是解决强化学习问题的有前途的框架，该问题着重于学习命令condi

颠倒 - 提升学习学习 -

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI