编辑场景图像在各个领域都非常重要,从娱乐,专业摄影和广告设计开始。内容编辑可以为观众创造沉浸式和迷人的体验,有效地传达艺术愿景并实现所需的美学结果。随着深层生成建模的快速发展,已经进行了许多尝试有效地编辑图像的尝试。但是,他们遇到了阻碍潜力的局限性。以前的方法主要集中在2D图像空间中的场景编辑上。他们通常依靠生成先验,例如gan和扩散模型(DM),并采用了诸如修改跨注意机制的技术[Hertz等。2022,2023],以及网络参数的优化[Chen等。2023a; Gal等。2022; Kawar等。2023; Kim等。2022; Ruiz等。2023]在场景图像中编辑外观和对象身份。尽管已做出一些努力将这些方法扩展到3D编辑,但它们忽略了3D提示,并在保持3D一致性方面构成了挑战,尤其是在更改摄像头姿势时。此外,这些方法通常集中在全球场景上,并且缺乏准确地解开对象的能力,从而导致对3D级别对单个对象的控制有限。为了编辑任何场景图像并启用对场景及其单个对象的3D控制,我们提出了3DITSCENE,这是一个新颖的场景编辑框架,该框架利用了新的场景表示形式,语言指导的散布高斯散布。2022; Rombach等。具体而言,给定的图像首先投影到3D高斯人中,这些高斯人通过2D生成的先验进一步完善并富集[Poole等。2022]。因此,我们获得了一个综合的3D场景表示,该表示自然可以为给定图像提供新的视图综合。此外,剪辑中的语言特征被蒸馏到相应的3D高斯人中,将语义引入3D几何形状。这些语义3D高斯人有助于将单个对象从整个场景表示中删除,从而导致语言引导的散布的高斯人进行场景分解。他们还允许更具用户友好的交互作用,即用户可以通过文本查询特定的对象或兴趣。为此,我们的3DITSCENE可实现从2D到3D的无缝编辑,并允许在全球和个人层面上进行修改,使创建者能够精确控制场景组合和对象级的编辑。我们将管道称为3DITSCENE。与以前的工作不同,该作品着重于解决单一类型的编辑,3DITSCENE INTETE-GRETS编辑要求在统一框架内。我们的预告片数字通过展示其在不同场景图像中的应用来演示3DITSCENE的多功能性。我们在各种环境下对3DITSCENE进行了评估,结果证明了基线方法的显着改善。
主要关键词