1。引言语义细分是计算机视觉和机器学习领域中的关键方面,在一系列应用程序中具有实质性的重要性。这个复杂的过程涉及图像或体积数据中单个像素或体素的细致标记,从而促进了指定的视觉上下文中不同对象类的识别[1]。语义分割中固有的方法学上的精确度使计算系统不仅可以识别和分类图像的内容,还可以为每个像素或体素分配语义含义,从而增强对手头视觉信息的整体理解。在诸如自主驾驶[2],室内导航[2],环境监测[3],映射[4],虚拟现实系统和增强现实系统[5]等应用程序中,对高性能语义分割的需求显着飙升。图像或体积数据中对象的准确描述对于增强这些技术的沉浸式体验和功能至关重要。但是,语义细分领域面临着需要解决的几个挑战,以确保其有效性。这些挑战包括实现准确和实时的分割[6],处理具有不同复杂性的不同数据集,并适应了二维(2D)和3D上下文。克服这些挑战对于成功地部署了依靠语义细分的尖端应用程序[7]至关重要。本文旨在通过提供针对语义细分的深度学习技术的全面概述来应对这些挑战。它探讨了2D和3D分割之间的区别[8],讨论了主要数据集及其复杂性,并调查专门用于语义分割的神经网络体系结构。
主要关键词