Loading...
机构名称:
¥ 1.0

摘要 - 在这项工作中,我们专注于机器人操纵领域中无监督的视力 - 语言映射。最近,已经为此任务提出了采用预训练的大语言和视觉模型的多种方法。但是,它们在计算上是要求的,需要仔细对产生的输出进行微调。更轻巧的替代方法是实现多模式变量自动编码器(VAE),可以提取数据的潜在特征并将其集成到联合代码中,这主要是在现有最终模型的图像图像或图像图纸上进行的。在这里,我们探讨了是否以及如何在模拟环境中使用多模式的VAE。基于获得的结果,我们提出了一种模型不变训练替代方案,该替代方法将模拟器中的模型性能提高了55%。此外,我们系统地评估了各个任务(例如对象或机器人位置可变性,干扰器数量或任务长度)所提出的挑战。因此,我们的工作也阐明了使用当前的多模式VAE的潜在益处和局限性,以根据视觉和语言对机器人运动轨迹进行无监督学习。索引术语 - 传感器融合,视觉学习,语义场景理解

机器人操纵任务中的多模式VAE

机器人操纵任务中的多模式VAEPDF文件第1页

机器人操纵任务中的多模式VAEPDF文件第2页

机器人操纵任务中的多模式VAEPDF文件第3页

机器人操纵任务中的多模式VAEPDF文件第4页

机器人操纵任务中的多模式VAEPDF文件第5页

相关文件推荐

2025 年
¥1.0
2024 年
¥1.0
2018 年
¥2.0
2024 年
¥1.0
2022 年
¥1.0
2025 年
¥1.0
2021 年
¥5.0
2021 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2021 年
¥1.0
2009 年
¥1.0