理解 SWAV:具有对比集群分配的自监督学习

对视图之间交换分配 (SWAV) 论文的数学解释。

来源:AI夏令营

自监督学习旨在从无监督的视觉数据中提取表示,如今它在计算机视觉领域非常有名。本文从数学角度介绍了 SWAV 方法,这是一篇强大的自监督学习论文。为此,我们提供了此方法有效原因的见解和直觉。此外,我们将讨论具有熵约束的最优传输问题及其快速近似,这是 SWAV 方法的关键点,当您阅读本文时会隐藏它。

具有熵约束的最优传输问题

无论如何,如果您想了解有关自监督学习的一般方面的更多信息,例如增强、直觉、带温度的 softmax 和对比学习,请参阅我们之前的文章。

文章

SWAV 方法概述

定义

让两个图像特征 zt\mathbf{z}_tzt​ 和 zs\mathbf{z}_szs​ 成为同一图像的两个不同增强。图像特征是通过对同一图像 X\mathbf{X}X 进行随机增强 t∼Tt \sim Tt∼T 生成的。

zt\mathbf{z}_tzt​ zt\mathbf{z}_tzt​ zt\mathbf{z}_t zt\mathbf{z}_t zt\mathbf{z}_t zt zt t \mathbf{z}_t zt​ zt​ zt​ z z t​ t​ t​ t t t t zs\mathbf{z}_szs​ zs\mathbf{z}_szs​ zs\mathbf{z}_s zs\mathbf{ z}_s zs\mathbf{z}_s zs zs z s \mathbf{z}_s zs​ zs​ zs​ z z s​ s​ s​ s s s s t∼Tt \sim Tt∼T t∼Tt \sim Tt∼T t∼Tt \sim T t∼Tt \sim T t∼Tt \sim T t∼T t T t \sim T t∼T t∼ t T T X\mathbf{X}X X\mathbf{X}X X\mathbf{X} X\mathbf{X} div> X\mathbf{X} X X \mathbf{X} X X X X 来源:BYOL 来源:BYOL BYOL 我们的实际目标:让 qt\mathbf{q}_tqt​ 和 qs\mathbf{q}_sqs​ 成为图像视图的各自代码。代码可以被视为图像的软类。 我们的实际目标:让 qt\mathbf{q}_tqt​ 和 qs\mathbf{q}_sqs​ 成为图像视图的各自代码。代码可以被视为图像的软类。 我们的实际目标 qt\mathbf{q}_tqt​ qt\mathbf{q}_tqt​ qt\mathbf{q}_t qt\mathbf{q}_t qt\mathbf{q}_t qt qt q t \mathbf{q}_t qt​ qt​ qt​ q q t​ t​ t​ t t t t ​ qs\mathbf{q}_sqs​ qs\mathbf{q}_sqs​ qs\mathbf{q}_s qs\mathbf{q}_s qs\mathbf{q}_s qs qs q s \mathbf{q}_s qs​ qs​ qs​ X\mathbf{X} X X \mathbf{X} X X X X 来源:BYOL

来源:BYOL

BYOL 我们的实际目标:让 qt\mathbf{q}_tqt​ 和 qs\mathbf{q}_sqs​ 成为图像视图的各自代码。代码可以被视为图像的软类。
  • 我们的实际目标:让 qt\mathbf{q}_tqt​ 和 qs\mathbf{q}_sqs​ 成为图像视图的各自代码。代码可以被视为图像的软类。
  • 我们的实际目标

    qt\mathbf{q}_tqt​ qt\mathbf{q}_tqt​ qt\mathbf{q}_t qt\mathbf{q}_t qt\mathbf{q}_t qt qt q t \mathbf{q}_t qt​ qt​ qt​ q q t​ t​ t​ t t t t qs\mathbf{q}_sqs​ qs\mathbf{q}_sqs​ qs\mathbf{q}_s qs\mathbf{q}_s qs\mathbf{q}_s qs qs q s \mathbf{q}_s qs​ qs​ qs​