图像语义分割是一项基础的计算机视觉任务,它对图像进行逐像素分类,以将具有某些共同语义内容的像素分组。语义分割的主要问题之一是创建完全注释的数据集,其中每幅图像每个像素都有一个标签。这些注释非常耗时,而且标记越多,人为输入错误的百分比就越高。基于较少监督的分割方法可以减少标记时间和噪声标签。然而,在处理实际应用时,建立一种最小化标记时间同时最大化性能的方法绝非易事。我们的主要贡献是首次全面研究基于不同监督级别的最先进方法。对图像处理基线、无监督、弱监督和监督方法进行了评估。我们的目标是通过在不同领域的数据集(例如街景(Camvid)、显微镜(MetalDAM)、卫星(FloodNet)和医学图像(NuCLS))上提供性能和监督复杂性之间的权衡,为任何接触新实际用例的人提供指导。我们的实验结果表明:(i)无监督和弱学习在多数类上表现良好,这有助于加快标记速度;(ii)弱监督在少数类上的表现优于全监督方法;(iii)并非所有弱学习方法都对数据集的性质具有鲁棒性,特别是基于图像级注释的方法;(iv)在所有弱监督方法中,基于点的方法表现最佳,甚至可以与全监督方法相媲美。代码可在 https://github.com/martafdezmAM/lessen_ surveillance 获得。
主要关键词