Loading...
机构名称:
¥ 1.0

强化学习(RL)通过互动来培训计算模型来解决复杂的决策。但是,由于昂贵或危险错误的高风险,在实地世界环境中的直接培训(例如自动驾驶或医疗程序)通常是不切实际的。因此,RL通常依赖于模拟环境或静态离线数据集。但是,这种依赖引入了一个关键的挑战,称为“现实差距” - 训练条件与现实世界应用中遇到的动态之间的差异。本演示文稿解决了旨在通过增强RL策略的有效性来弥合这一差距的创新策略: - 强大的RL优化:我们深入研究了扰动的战略使用,以优化从模拟器中汲取的政策。这种方法着重于提高这些政策的适应性和鲁棒性,使它们更适合于可变性和意外条件的现实应用程序。- 离线RL优化:进一步的讨论将探讨汉密尔顿 - 雅各比 - 贝尔曼(HJB)方程的应用,作为增强在静态数据集中训练的策略的方法的方法。该技术对于在无法实现与环境的实时互动的情况下改善现实世界的适用性至关重要。

在增强学习中弥合现实差距:鲁棒

在增强学习中弥合现实差距:鲁棒PDF文件第1页