理解自我监督(表示)学习:它在计算机视觉中的工作原理及其原因

理解自监督表示学习方法的一般观点。

来源:AI夏令营

自监督学习 (SSL) 是迁移学习的一种预训练替代方案。尽管 SSL 源自海量 NLP 数据集,但它在计算机视觉领域也取得了重大进展。计算机视觉中的自监督学习始于旋转、拼图游戏甚至视频排序等借口任务。所有这些方法都是制定手工制作的分类问题,以在没有人工注释者的情况下生成标签。

SSL 视频排序

为什么?

因为许多应用领域都缺乏人工标签。为此,自监督学习是转移权重的一种方法。通过在数据中人工生成的标签上对模型进行预训练。

如今,SSL 已转向表征学习,这主要发生在特征空间中。我敢打赌你以前听说过。但表征学习到底是什么意思呢?

根据 David Marr 的书(愿景:计算调查),表示明确了某些实体和信息类型,并且可以通过算法对其进行操作以实现某些信息处理目标。深度学习就是学习这些表示。

根据 David Marr 的书(愿景:计算调查),表示明确了某些实体和信息类型,并且可以通过算法对其进行操作以实现某些信息处理目标。深度学习就是学习这些表示。

愿景:计算调查

在自监督学习设置中,我们暗示损失函数在表示所在的空间中最小化:特征空间!有些人可能称之为潜在空间或嵌入空间,但在本文中我们将坚持使用术语特征空间。

因此,我们不是解决手工任务,而是尝试通过使用特征向量来创建强大的表示。

TL;DR

在本文中,我们将:

  • 重点介绍我花了很多时间才理解的 SSL 的核心原则。
  • 介绍 SSL 的通用框架。