Loading...
机构名称:
¥ 1.0

在许多应用程序中,我们需要生成一个序列长度比原始视频模型支持的长度更长的视频。为了实现这一目标,我们首先将长视频分为长度L的重叠块,在连续的块之间具有一个框架重叠,并以自动回归方式顺序生成每个块的框架。具体来说,对于第一个块,我们遵循Sec中描述的推理管道。主纸的4.5预测RGB视频。 然后,我们从第一个块预测中使用框架更新3D缓存,该预测捕获了场景的新观点,并提供了原始3D缓存中不存在的其他信息。 要更新3D缓存,我们使用DAV2 [10]估算了第一个块中最后一个帧的像素深度,并通过最大程度地减少再投影误差来使该深度估计与3D缓存对齐。 具体来说,我们将深度估计表示为d,并优化d的缩放率和翻译T系数。 我们将点云从3D缓存渲染到d的摄像机视图处的深度图像。 我们将点云从3D缓存从D的摄像机视图中从D的摄像机视图(表示为D TGT)渲染到深度图像,并且类似于主纸,呈现一个掩码m,指示每个像素是否被3D缓存覆盖。 然后将优化目标定义为:主纸的4.5预测RGB视频。然后,我们从第一个块预测中使用框架更新3D缓存,该预测捕获了场景的新观点,并提供了原始3D缓存中不存在的其他信息。要更新3D缓存,我们使用DAV2 [10]估算了第一个块中最后一个帧的像素深度,并通过最大程度地减少再投影误差来使该深度估计与3D缓存对齐。具体来说,我们将深度估计表示为d,并优化d的缩放率和翻译T系数。我们将点云从3D缓存渲染到d的摄像机视图处的深度图像。我们将点云从3D缓存从D的摄像机视图中从D的摄像机视图(表示为D TGT)渲染到深度图像,并且类似于主纸,呈现一个掩码m,指示每个像素是否被3D缓存覆盖。然后将优化目标定义为:

gen3c:3D了解世界一致的视频生成...

gen3c:3D了解世界一致的视频生成...PDF文件第1页

gen3c:3D了解世界一致的视频生成...PDF文件第2页

gen3c:3D了解世界一致的视频生成...PDF文件第3页

gen3c:3D了解世界一致的视频生成...PDF文件第4页