摘要 - 机器人技术的快速发展的领域需要可以促进多种方式融合的方法。具体来说,在与有形对象进行交互时,有效地结合了视觉和触觉感觉数据是理解和导航物理世界的复杂动态的关键,从而使对不断变化的环境的响应更加细微和适应性。尽管如此,在合并这两种感官方式上的许多早期工作都依赖于使用人类标记的数据集的监督方法。本文介绍了MVITAC,这是一种新型方法,它利用对比度学习,以一种自我监督的方式整合视觉和触摸感。通过同时利用两种输入,MVITAC利用内部和模式间损失来学习表示表示,从而增强了材料的属性分类和更熟练的掌握预测。通过一系列实验,我们展示了我们方法的有效性及其优于现有的最先进的自我监督和监督技术。在评估我们的方法论时,我们专注于两个不同的任务:物质分类和掌握成功预测。我们的结果表明,MVITAC促进了改进的模态编码器的发展,从而产生了更强大的表示形式,如线性探测评估所证明的。https://sites.google.com/ view/mvitac/home
主要关键词