视觉增强学习(RL)是实现人类智力的有前途的方法。但是,它目前在嘈杂的环境中有效地学习面临挑战。相比之下,人类可以通过应用以前获得的常识来迅速识别到分散注意力的环境中的与任务相关的观察。最近,自然语言处理和计算机视觉中的基础模式取得了巨大的成功,这些模型中的常识可以显着使下游任务培训受益。受这些成就的启发,我们旨在将基础模型的常识不足为视觉RL。我们提出了一种新颖的效果(FTD)框架,使代理可以仅基于与任务相关的对象做出决策。为了实现这一目标,我们引入了一种努力机制,以从基础细分模型返回的对象集中选择与任务相关的对象,仅使用与任务相关的对象进行决策模块的后续培训。此外,我们专门采用了两个通用的自我监督目标来促进这种注意机制的快速学习。基于DeepMind Control Suite和Franka Emika机器人技术的CHALENGING任务的实验结果表明,我们的方法可以快速,准确地在嘈杂的环境中准确指出感兴趣的对象。因此,它对当前的最新算法实现了重大的性能提高。项目页面:https://www.lamda.nju.edu.edu.cn/chenc/ftd.html代码:https://github.com/lamda-rl/ftd
主要关键词