图1。想象我们在多视图输入图像上使用了2D视觉操作员,例如语义分割或场景编辑。这通常会导致不同视图的预测不一致(如中间列所示)。为了解决这个问题,我们介绍了Lift3D,这是一个框架,旨在将这些不一致的2D输出转换为视图一致的3D预测(在右列中说明)。我们的方法既是场景又是操作员 - 不可思议的,这意味着它可以适应任何下游任务或场景,而无需其他调整。我们演示了Lift3D如何有效地解决开放词汇细分和文本驱动场景编辑的多视图预测中的矛盾。请注意,在底部行的2D结果中,在相同最右边的椅子上的颜色差异(从红色到绿色),面部和头发颜色的不一致。为了在2D和3D结果之间进行更清晰的比较,我们建议缩放此图像的电子版本。
基于视觉的操纵政策的基本目标是了解场景并预测相应的3D姿势。一些现有的方法利用2D图像作为输入来直接预测3D末代效果通过增强学习[1、12、21、30、50、83]或模仿学习[6、13、13、18、39、43、43、46、94、98]。尽管这些方法可以有效地处理一系列操纵任务,但它们不完全了解物理世界中的空间关系和3D结构[16,19,67,69,95]。在机器人操作中,3D几何信息对于应对复杂任务至关重要,因为机器人必须感知3D环境,有关几何关系的原因以及具有复杂的空间配置。最近的研究越来越集中于机器人操作任务中3D特征表示的明确提取,可以将其分为两组。一方面,某些方法直接编码点云数据[8、32、49、69、73、86、93],要么训练从头开始训练3D策略模型,要么是对预处理的点云启动器(即PointNetNet ++ [58]和PointNext [59])。然而,大规模机器人3D数据和基础模型的有限可用性限制了其概括性的capabilies。此外,处理3D或体素特征会在现实世界应用中造成大量的计算成本,阻碍可伸缩性和实用性。”为了解决这个问题,我们提出了Lift3D框架,该工作提升了基于变压器的2D基础模型(例如Dinov2 [56]或Clip [61])以构建Ro-Bust 3D操纵策略逐步。另一方面,某些方法涉及转换方式,例如将预验证的2D特征提升为3D空间[22,36,67,78],或将3D点云投影到多视图图像中,以输入2D预审计的模型[23,24,76,89]。尽管在几个下游的射击任务上表现出了有希望的表现,但这些模态转换不可避免地会导致空间信息的丧失,阻碍了机器人的痛苦,以了解3D空间关系。基于上述3D政策的挑战,我们提出了一个问题:“我们可以开发一个3D策略模型,该模型集成了大规模预审计的知识,同时结合了完整的3D空间数据输入?Lift3D的主要见解首先是增强隐式3D机器人代表,然后明确编码点云数据以进行策略模仿学习。对于隐式3D机器人表示,我们设计了一种任务意识的蒙版自动编码器(MAE),该自动编码器(MAE)以自我监督的方式处理2D图像并重建3D地理信息,如图1 A所示)。具体来说,我们利用机器人操作[25,55]的大规模未标记数据集,并利用多模型模型(即剪辑)来根据任务文本描述提取图像注意图。然后将这些注意图回到2D输入中,以引导MAE
教学加利福尼亚大学圣地亚哥大学本科课程CSE 8B编程和计算问题解决简介II,2020,2021,2021,2022(春季和秋季),2023,2023,2025 CSE 11编程和计算问题解决简介解决简介:解决速度:加速速度,2024(Spring and Fall),2024(Spring and Fall)CSE 15L软件工具和技术分析,春季和2019年,2019年(冬季),2019年(冬季),2019年,冬季(冬季),企业,2019年冬季cers和2019 of Algorithms , 2018 CSE 152 Introduction to Computer Vision , 2015, 2016, 2017, 2018 CSE 152A Introduction to Computer Vision I (broad introduction), 2021, 2024 CSE 166 Image Processing , 2016, 2017, 2019, 2020 (spring and fall), 2022, 2023 (winter and fall) CSE 167 Computer Graphics , 2018, 2020 Graduate Courses CSE 252A Computer Vision I (comprehensive简介),2014,2015,2015,2016,2019,2021,2022,2023,2023,2025 CSE 252B计算机愿景II(成像几何),2014,2014,2015,2016,2017,2018,2019,2019,2021,2021,2021,2022,2022,2023,2023,2023,2024 CSE 252C选择了视觉和学习的主题291),2021(作为CSE 291),2022,2023,2024
