4DIFF:第三到第一个观点的3D引用扩散模型...
机构名称:
¥ 1.0

摘要。我们提出了4DIFF,这是一个解决Exo-to-ego视图转换任务的3D引起的扩散模型 - 从相应的第三人称(Exentric)图像中生成第一人称(Ego-go-Imentric)查看图像。建立扩散模型生成光地式图像的能力,我们提出了一个基于变压器的扩散模型,该模型通过两种机制对几何学进行了评分:(i)Egocentric Point Cloud Rasterization和(II)3D意识到的旋转旋转交叉注意。以中心的点云栅格化将输入外向图像转换为以自我为中心的布局,后者随后被扩散图像变压器使用。作为扩散变压器的DeNoiser块的组成部分,3D感知的旋转跨注意事件进一步结合了从源exentric视图中的3D信息和半出现特征。我们的4DIFF在挑战性和多样化的自我exo4d多视图数据集上实现了状态的结果,并展示了对训练期间未遇到的新型环境的强大概括。我们的代码,处理过的数据和预处理的模型可在https://klauscc.github.io/4diff上公开获取。

4DIFF:第三到第一个观点的3D引用扩散模型...

4DIFF:第三到第一个观点的3D引用扩散模型...PDF文件第1页

4DIFF:第三到第一个观点的3D引用扩散模型...PDF文件第2页

4DIFF:第三到第一个观点的3D引用扩散模型...PDF文件第3页

4DIFF:第三到第一个观点的3D引用扩散模型...PDF文件第4页

4DIFF:第三到第一个观点的3D引用扩散模型...PDF文件第5页

相关文件推荐

从第一年到...
2025 年
¥1.0
飞行之旅第三版...
2014 年
¥68.0
观点挑战和使用...
2020 年
¥3.0