本文使用背面计划研究了一种新的基于模型的强化学习方法:混合(近似)动态编程更新和无模型更新,类似于DYNA架构。带有学习模型的背景计划通常比无模型的替代方案(例如Double DQN)差,即使前者使用的记忆和计算更大。基本问题是,学到的模拟可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景计划限制为一组(摘要)子目标,并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法在计算上更有效,自然地包含了时间抽象,以进行更快的长途径计划,并避免完全学习过渡动态。我们表明,我们的GSP算法可以从抽象空间中传播价值,以帮助各种基础学习者在不同的域中更快地学习显着的速度。关键字:基于模型的增强学习,时间抽象,计划
摘要:在机器人文献中,最佳跟踪问题通过使用各种鲁棒和自适应控制方法来解决。然而,这些方案与实施限制有关,例如在具有完整或部分基于模型的控制结构的不确定动态环境中的适用性、离散时间环境中的复杂性和完整性以及复杂耦合动态系统中的可扩展性。开发了一种在线自适应学习机制来解决上述限制,并为跟踪控制类问题提供通用解决方案平台。该方案使用同时线性反馈控制策略最小化跟踪误差并优化整体动态行为。采用基于值迭代过程的强化学习方法来求解底层贝尔曼最优方程。生成的控制策略以交互方式实时更新,而无需任何有关底层系统动态的信息。采用自适应评论家的方法来实时近似最佳求解值函数和相关控制策略。在模拟中说明了所提出的自适应跟踪机制在不确定的气动学习环境下控制柔性翼飞机的作用。
摘要:在机器人文献中,最佳跟踪问题通过使用各种鲁棒和自适应控制方法来解决。然而,这些方案与实施限制有关,例如在具有完整或部分基于模型的控制结构的不确定动态环境中的适用性、离散时间环境中的复杂性和完整性以及复杂耦合动态系统中的可扩展性。开发了一种在线自适应学习机制来解决上述限制,并为跟踪控制类问题提供通用的解决方案平台。该方案使用同时线性反馈控制策略最小化跟踪误差并优化整体动态行为。采用基于值迭代过程的强化学习方法来求解底层贝尔曼最优方程。生成的控制策略以交互方式实时更新,而无需任何有关底层系统动态的信息。采用自适应评论家的方法实时逼近最优解值函数和相关控制策略。在仿真中说明了所提出的自适应跟踪机制,以在不确定的气动学习环境下控制柔性翼飞机。
2.1 简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....................................................................................................................................................................................................................................................................................... 6 欺骗模型....................................................................................................................................................................................................................................................................................................................................................................... 10 2.3 欺骗的实用性....................................................................................................................................................................................................................................................................... 10 2.3 欺骗的实用性....................................................................................................................................................................................................................................................................................... . . 17 需要使用欺骗手段的情况. . . . . . . . . 18 欺骗的必要条件. . . . . . . . . . . . . . 21 所需属性. . . . . . . . . . . . . . . . . 22 欺骗机制. . . ................. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ....... ....... ....... ....... .......