Loading...
机构名称:
¥ 1.0

摘要。开放式摄取分段是分割图像中可以命名的任何事物的任务。最近,大规模的视觉建模导致了开放式摄影片段的重大进展,但付出了巨大的成本,并增加了培训和注释工作。因此,我们询问是否可以使用现有的基础模型来合成特定类别集的按需有效分段算法,从而使其适用于开放式摄影库设置,而无需收集进一步的数据,注释或执行培训。为此,我们提出了Ovdiff,这是一种新颖的方法,它利用生成的文本对图像扩散模型来进行无监督的开放式摄影症。ovdiff合成支持任意文本类别的图像集,为每个类别及其周围环境(背景)创建一组原型。它仅依赖于预先训练的组件,并直接输出合成的分段,而无需训练。我们的方法在一系列基准上显示出很强的性能,在Pascal VOC上的先前工作中获得了超过5%的铅。

开放式vocabulary分割的扩散模型

开放式vocabulary分割的扩散模型PDF文件第1页

开放式vocabulary分割的扩散模型PDF文件第2页

开放式vocabulary分割的扩散模型PDF文件第3页

开放式vocabulary分割的扩散模型PDF文件第4页

开放式vocabulary分割的扩散模型PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥8.0
2024 年
¥5.0
2025 年
¥1.0
2024 年
¥6.0
2023 年
¥1.0
2024 年
¥1.0
1900 年
¥1.0
2024 年
¥12.0
2025 年
¥2.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥6.0
2023 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥2.0
2025 年
¥2.0
2023 年
¥1.0
2023 年
¥13.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥5.0