具有多模式提示的统一开放世界分割

近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……

来源:Apple机器学习研究

近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入方式,例如图像和文本。 COSINE包含模型池和分段解码器,充分利用基础模型的表示能力,能够根据图像、文本等多种输入方式准确分割特定概念,提供强大的开放世界感知能力。各种分割任务的实验表明了该方法的有效性。

  • † 浙江大学
  • ‡ 杭州电子科技大学
  • §浙江工业大学