详细内容或原文请订阅后点击阅览
标签会让人工智能失明吗?自我监督解决了古老的约束问题
一篇新的 NeurIPS 2025 论文展示了自监督学习如何为 ViT 提供比监督学习更好的图像理解帖子《标签会让 AI 失明吗?》自我监督解决了古老的约束问题首先出现在《走向数据科学》上。
来源:走向数据科学论文 [1],“对象绑定在大型预训练视觉变压器中自然出现吗?”深入探讨了视觉神经科学中的一个基本问题:将视觉元素和纹理作为对象绑定在一起需要什么?本文的目的是为您提供有关此问题的背景知识,回顾这篇 NeurIPS 论文,并希望让您深入了解人工神经网络和生物神经网络。我还将回顾一些深度学习自监督学习方法和视觉转换器,同时强调当前深度学习系统和我们大脑之间的差异。
1. 简介
当我们观看场景时,我们的视觉系统不仅向我们的意识提供对象和构图的高级摘要;还向我们的意识提供对象和构图的高级摘要。我们还可以有意识地访问整个视觉层次结构。
我们可以用注意力在较高级别区域“抓住”一个物体,例如下颞叶 (IT) 皮层和梭形面部区域 (FFA),并访问在较低级别区域(例如 V1 和 V2)中编码的所有轮廓和纹理。
如果我们缺乏这种访问整个视觉层次结构的能力,我们要么无法有意识地访问视觉系统的低级细节,要么在试图传达所有这些信息的更高级别区域中维度会爆炸。这需要我们的大脑变得更大并消耗更多的能量。
Von der Malsburg 和 Schneider 在 1986 年提出了神经振荡绑定假说(综述见[2]),他们提出每个对象都有自己的时间标签。
在这个框架中,当你看一张有两只小狗的图片时,整个视觉系统中编码第一只小狗的所有神经元都会在振荡的一个阶段激发,而编码另一只小狗的神经元会在不同的阶段激发。在麻醉的猫中发现了这种类型结合的证据,然而,麻醉会增加大脑的振荡。
