详细内容或原文请订阅后点击阅览
具有多模式提示的统一开放世界分割
近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……
来源:Apple机器学习研究近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入方式,例如图像和文本。 COSINE包含模型池和分段解码器,充分利用基础模型的表示能力,能够根据图像、文本等多种输入方式准确分割特定概念,提供强大的开放世界感知能力。各种分割任务的实验表明了该方法的有效性。
