视频上的自监督表示学习 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

视频上的自监督表示学习

2020年7月30日 00:00 33 Comments

在本文中，我们通过仔细回顾学习视频表示的自监督基本概念，深入研究计算机视觉中自监督表示学习的最新方法。

来源:AI夏令营

如今，从 Imagenet 上的预训练模型进行迁移学习是计算机视觉的终极标准。自监督学习主导着自然语言处理，但这并不意味着计算机视觉没有值得考虑的重要用例。在处理图像时，人们确实可以设计出许多很酷的自监督任务，例如拼图 [6]、图像着色、图像修复，甚至无监督图像合成。

图像合成

但是当时间维度发挥作用时会发生什么？你如何处理你想要解决的基于视频的任务？

那么，让我们从头开始，一个概念一个概念地讲。什么是自监督学习？它与迁移学习有何不同？什么是借口任务？

迁移学习是一个不错的起点。

迁移学习使我们能够利用用于任务 A 的（卷积）神经网络的权重并将其应用于另一个任务（B），前提是输入域以某种方式相关。

迁移学习使我们能够利用用于任务 A 的（卷积）神经网络的权重并将其应用于另一个任务（B），前提是输入域以某种方式相关。

在机器学习术语中，任务 A 中的训练过程称为预训练。这背后的核心思想是，可以利用任务 A 中获得的“知识”来增强任务 B 中的泛化。通常情况确实如此，因为谁想从随机权重初始化开始呢？

预训练

显然，迁移学习是最大化模型性能的一种方法，通过在类似的监督（视频）数据集上进行预训练。然而，在视频等领域，注释（监督）的问题很快就会出现。很难找到带注释的视频数据并转移权重。

预训练 监督 自监督学习 VS 迁移学习

自监督 VS 迁移学习

来自猜测借口代理

学习迁移监督权重任务 VS 训练利用图像图像合成计算机视频能够卷积