详细内容或原文请订阅后点击阅览
视频上的自监督表示学习
在本文中,我们通过仔细回顾学习视频表示的自监督基本概念,深入研究计算机视觉中自监督表示学习的最新方法。
来源:AI夏令营如今,从 Imagenet 上的预训练模型进行迁移学习是计算机视觉的终极标准。自监督学习主导着自然语言处理,但这并不意味着计算机视觉没有值得考虑的重要用例。在处理图像时,人们确实可以设计出许多很酷的自监督任务,例如拼图 [6]、图像着色、图像修复,甚至无监督图像合成。
图像合成但是当时间维度发挥作用时会发生什么?你如何处理你想要解决的基于视频的任务?
那么,让我们从头开始,一个概念一个概念地讲。什么是自监督学习?它与迁移学习有何不同?什么是借口任务?
自监督学习 VS 迁移学习
迁移学习是一个不错的起点。
迁移学习使我们能够利用用于任务 A 的(卷积)神经网络的权重并将其应用于另一个任务(B),前提是输入域以某种方式相关。
迁移学习使我们能够利用用于任务 A 的(卷积)神经网络的权重并将其应用于另一个任务(B),前提是输入域以某种方式相关。
在机器学习术语中,任务 A 中的训练过程称为预训练。 这背后的核心思想是,可以利用任务 A 中获得的“知识”来增强任务 B 中的泛化。 通常情况确实如此,因为谁想从随机权重初始化开始呢?
预训练显然,迁移学习是最大化模型性能的一种方法,通过在类似的监督(视频)数据集上进行预训练。然而,在视频等领域,注释(监督)的问题很快就会出现。很难找到带注释的视频数据并转移权重。
预训练 监督 自监督学习 VS 迁移学习自监督 VS 迁移学习
来自 猜测 借口 代理