详细内容或原文请订阅后点击阅览
关于自我监督学习的逐步性质
图 1:自监督学习中的逐步行为。在训练常见的 SSL 算法时,我们发现损失以逐步方式下降(左上),而学习到的嵌入则以迭代方式增加维度(左下)。嵌入的直接可视化(右图;显示了前三个 PCA 方向)证实了嵌入最初会折叠到一个点,然后扩展到 1D 流形、2D 流形,并随着损失的步骤而扩展。人们普遍认为,深度学习的惊人成功部分归功于它能够发现和提取复杂数据的有用表示。自监督学习 (SSL) 已成为一种领先的框架,用于直接从未标记数据中学习图像的这些表示,类似于 LLM 直接从网络抓取的文本中学习语言的表示。然而,尽管 SSL 在 CLIP 和 MidJourney 等最先进的模型中发挥着关键作用,但诸如“自监督图像系统真正学习的是什么?”之类的基本问题仍然存在。以及“这种学习究竟是如何发生的?”缺乏基本的答案。我们最近的论文(将在 ICML 2023 上发表)展示了我们认为的大规模 SSL 方法训练过程的第一个引人注目的数学图景。我们精确解决的简化理论模型通过一系列离散的、分离良好的步骤来学习数据的各个方面。然后我们证明这种行为可以在许多当前最先进的系统中实际观察到。
来源:BAIR图 1:自监督学习中的逐步行为。在训练常见的 SSL 算法时,我们发现损失以逐步方式下降(左上),而学习到的嵌入则以迭代方式增加维数(左下)。嵌入的直接可视化(右图;显示了前三个 PCA 方向)证实了嵌入最初会折叠到一个点,然后扩展到 1D 流形、2D 流形,并随着损失的逐步增加而扩展。
图 1:自监督学习中的逐步行为。在训练常见的 SSL 算法时,我们发现损失以逐步方式下降(左上),而学习到的嵌入则以迭代方式增加维数(左下)。嵌入的直接可视化(右图;显示了前三个 PCA 方向)证实了嵌入最初折叠为一个点,然后随着损失的步骤同时扩展到 1D 流形、2D 流形及其他。 图 1:自监督学习中的逐步行为。在训练常见的 SSL 算法时,我们发现损失逐步下降(左上),而学习到的嵌入迭代增加维数(左下)。嵌入的直接可视化(右图;显示了前三个 PCA 方向)证实了嵌入最初折叠为一个点,然后随着损失的步骤同时扩展到 1D 流形、2D 流形及其他。 图 1:自监督学习中的逐步行为。 CLIP MidJourney 最近的论文 大规模 SSL 方法训练过程的第一个引人注目的数学图景。背景
理论:使用线性化模型在 SSL 中进行逐步学习
我们首先描述一个完全可解的 SSL 线性模型,其中训练轨迹和最终嵌入都可以以封闭形式写出。值得注意的是,我们发现表示学习分为一系列离散步骤:嵌入的等级从小开始,并在逐步学习过程中迭代增加。