Loading...
机构名称:
¥ 1.0

对物体和场景的三维(3D)理解在人类与世界互动的能力中起着关键作用,并且一直是计算机视觉,图形和机器人技术的积极研究领域。大规模合成和以对象为中心的3D数据集证明对对象有3D了解的训练模型有效。但是,由于缺乏大规模数据,很难将类似的方法应用于现实世界对象和场景。视频是现实世界3D数据的潜在来源,但是找到相同内容的多样化但相应的观点已显示出很难大规模。此外,标准视频带有固定的观点,在捕获时确定。这限制了从各种更多样化和潜在有用的观点访问场景的能力。我们认为,大规模360◦视频可以解决以下限制:可扩展的相应帧从不同的视图中。在本文中,我们介绍了360-1M,一个360◦视频数据集,以及有效地从各种观点中找到相应帧的过程。我们以360-1m的速度训练基于扩散的模型O O DIN 1。由迄今为止最大的真实世界,多视图数据集授权,o din可以自由地生成真实场景的新颖观点。与以前的方法不同,o din可以将相机移动到环境中,从而使模型可以推断场景的几何形状和布局。此外,我们在标准的新型视图合成和3D重建基准上显示出改进的性能。

学会从一百万的360视频中想象世界

学会从一百万的360视频中想象世界PDF文件第1页

学会从一百万的360视频中想象世界PDF文件第2页

学会从一百万的360视频中想象世界PDF文件第3页

学会从一百万的360视频中想象世界PDF文件第4页

学会从一百万的360视频中想象世界PDF文件第5页