Loading...
机构名称:
¥ 1.0

我们提出了G en 3c,这是一种具有精确的C amera c onTrol和暂时3D C的生成视频模型。先前的视频模型已经生成了现实的视频,但是它们倾向于利用少量3D信息,导致不一致的情况,例如弹出和不存在的对象。相机控制(如果完全实现)是不精确的,因为相机参数仅是对神经网络的输入,然后必须推断视频依赖相机。相比之下,G en 3c由3D缓存:通过预测种子图像的像素深度或先前生成的框架获得的点云。生成下一个帧时,G en 3c由用户提供的新摄像头轨迹在3D缓存的2D渲染上进行条件。至关重要的是,这意味着G en 3c都不必须记住它的预期

gen3c:3D了解世界一致的视频生成...

gen3c:3D了解世界一致的视频生成...PDF文件第1页

gen3c:3D了解世界一致的视频生成...PDF文件第2页

gen3c:3D了解世界一致的视频生成...PDF文件第3页

gen3c:3D了解世界一致的视频生成...PDF文件第4页

gen3c:3D了解世界一致的视频生成...PDF文件第5页