自学成才的AI重新定义了计算机视觉

Meta AI的Dinov3是一种自我监督的视觉模型,该模型在17亿张图像上训练,在图像分类,对象检测等方面设定了新的标准。通过革兰氏阴锚和现实世界中的创新,从监测森林砍伐到为NASA的火星探索供电,它标志着计算机视觉的范式变化。

来源:Qudata

自学成才的AI重新定义了计算机视觉

自学学习(SSL)正在迅速重塑人工智能领域,使模型能够从大量的原始数据中学习,而无需昂贵的手动注释。尽管这种范式在大型语言模型中促进了突破性,但到目前为止,其在计算机视觉上的全部潜力尚未开发。

Meta AI揭开了Dinov3,这是Dino Vision模型家族中的最新演变,代表了自我监督的图像学习中的一个重要里程碑。 Dinov3基于多年的研究,将SSL缩放到前所未有的水平,产生多功能视觉骨架,从而在广泛的任务中设定了新的高级基准。

Meta AI已公布Dinov3

dinov3经过17亿张图像的培训,并扩展了高达70亿个参数,但它仅消耗了诸如剪辑之类的弱监督方法所需的计算的一小部分。尽管在评估过程中保持了骨干的冻结,但该模型在以下方面达到或超过了最高表现:

    图像分类版本分段对象检测对象跟踪在视频深度估计中
  • 图像分类
  • 语义分割
  • 对象检测
  • 视频中的对象跟踪
  • 相对深度估计
  • 这一突破首次证明了经过SSL训练的模型可以始终如一地超过全球任务和密集预测任务的弱监督方法。

    Dinov3背后的关键创新之一是一种称为Gram锚定的新方法。传统上,扩展自我监督的模型导致在长期训练时间表中逐渐降低特征地图。革兰氏锚定通过清洁和稳定功能来解决这一挑战,确保在3D匹配或深度估计等几何任务中可靠的性能。这一进步允许Dinov3维持高质量的密集表示,从自然图像到医疗扫描和卫星数据,它们有效地跨越了范围。