视频上的自监督表示学习

在本文中,我们通过仔细回顾学习视频表示的自监督基本概念,深入研究计算机视觉中自监督表示学习的最新方法。

来源:AI夏令营

如今,从 Imagenet 上的预训练模型进行迁移学习是计算机视觉的终极标准。自监督学习主导着自然语言处理,但这并不意味着计算机视觉没有值得考虑的重要用例。在处理图像时,人们确实可以设计出许多很酷的自监督任务,例如拼图 [6]、图像着色、图像修复,甚至无监督图像合成。

图像合成

但是当时间维度发挥作用时会发生什么?你如何处理你想要解决的基于视频的任务?

那么,让我们从头开始,一个概念一个概念地讲。什么是自监督学习?它与迁移学习有何不同?什么是借口任务?

自监督学习 VS 迁移学习

迁移学习是一个不错的起点。

迁移学习使我们能够利用用于任务 A 的(卷积)神经网络的权重并将其应用于另一个任务(B),前提是输入域以某种方式相关。

迁移学习使我们能够利用用于任务 A 的(卷积)神经网络的权重并将其应用于另一个任务(B),前提是输入域以某种方式相关。

在机器学习术语中,任务 A 中的训练过程称为预训练。 这背后的核心思想是,可以利用任务 A 中获得的“知识”来增强任务 B 中的泛化。 通常情况确实如此,因为谁想从随机权重初始化开始呢?

预训练

显然,迁移学习是最大化模型性能的一种方法,通过在类似的监督(视频)数据集上进行预训练。然而,在视频等领域,注释(监督)的问题很快就会出现。很难找到带注释的视频数据并转移权重。

预训练 监督 自监督学习 VS 迁移学习

自监督 VS 迁移学习

来自 猜测 借口 代理