摘要 - 多模式增强学习(RL)的最关键方面之一是不同观察方式的有效整合。具有从这些模式中得出的鲁棒和准确表示是增强RL算法的鲁棒性和样品效率的关键。但是,在RL设置中,用于视觉动作数据的学习表示构成了重大挑战,尤其是由于数据的高维度以及与动态环境和任务目标相关的视觉和触觉输入所涉及的复杂性。为了应对这些挑战,我们提出了多模式对比度无监督的强化学习(M2CURL)。我们的方法采用了一种新颖的多式自我监督学习技术,该技术可以学习有效的代表,并有助于更快的RL算法收敛。我们的方法对RL算法不可知,因此可以与任何可用的RL算法进行集成。我们在触觉健身房2模拟器上评估了M2Curl,并表明它可以显着提高不同操纵任务的学习效率。与没有我们的表示学习方法相比,与标准RL算法相比,每集更快的收敛速率和更高的累积奖励可以证明这一点。项目网站:https://sites.google.com/view/m2curl/ home