摘要。现有的3D语义占用预测方法典型地将任务视为一个单发的3D体素分割问题,在输入和占用图之间的单步映射上进行了限制,这限制了它们完善和完成本地区域的能力。在本文中,我们引入了Occgen,这是3D语义占用预测的简单而强大的生成感知模型。Occgen采用了“噪声到占用”生成范式,通过预测和消除随机高斯分布来逐渐推断和完善占用图。OCCGEN由两个主要组成部分组成:一个能够处理多模式输入的条件编码器,以及一种采用多模式特征作为条件的逐步改进解码器。对这种生成管道的关键见解是,扩散的deoising过程自然能够对密集的3D杯映射的粗到细化进行建模,从而产生更详细的预测。对几个占用基准的广泛实验证明了与最新方法相比,该方法的有效实验。例如,OCCGEN在Muli-Modal,仅LIDAR-仅和仅相机设置下的Nuscenes-cupancy数据集中相对将MIOU提高9.5%,6.3%和13.3%。此外,作为一种生成感知模型,Occgen表现出鉴别模型无法实现的理想特性,例如在其多步预测并提供不确定性估计的情况下。
主要关键词