参考图像分割(RIS)的目的是通过相应的静脉语言表达式精确地分段图像中的对象,但依赖于成本密集的掩码注释。弱监督的RIS因此从图像文本对学习到像素级语义,这是用于分割细粒面罩的挑战。自然而然地提高了分割精度,是用图像分割模型SAM赋予弱监督的RI。尽管如此,我们观察到,简单地整合SAM会产生有限的收益,甚至由于不可避免的噪声而导致性能回归,而过度关注对象部分的挑战和挑战。在本文中,我们提出了一个创新的框架,即P PPT(PPT),与拟议的多源课程学习策略合并,以解决这些挑战。具体来说,PPT的核心是一个点发生器,它不仅可以利用Clip的文本图像对准能力和SAM强大的掩膜生成能力,而且还产生了负点提示,以固有,有效地解决嘈杂和过度的焦点问题。在适当的情况下,我们引入了一种以对象为中心图像的课程学习策略,以帮助PPT逐渐从更简单但精确的语义一致性中学习到更复杂的RIS。实验表明,我们的PPT在MIOU上显着胜过弱监督的技术,分别为11.34%,14.14%和6.97%,分别为6.97%。
主要关键词