将多重表示与多重边缘匹配间隙进行对比

学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21​k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……

来源:Apple机器学习研究

学习可通过多种(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于配对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21​k(k−1) 损失对,或者通过使用减少嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具来同时合并所有 kkk 个视图的损失。给定一批 nnn 个点,每个点被视为一个视图的 kkk 元组,随后转换为 kkk 嵌入,我们的损失对比了将这些 nnn 个真实 kkk 元组进行匹配的成本与 MM-OT 多匹配成本,后者寻求在这些 n×kn\times kn×k 向量中选择 nnn 个最佳排列的 kkk 元组。虽然 MM-OT 问题的指数复杂度 O(nkO(n^kO(nk) 似乎令人望而生畏,但我们在实验中表明,针对该问题的 Sinkhorn 算法的适当泛化可以扩展到例如,使用大小为 64 ∼12864~\sim12864 ∼128 的小批量,k=3∼6k=3\sim 6k=3∼6 个视图。我们的实验表明,对于自监督和多模态任务,与成对损失的多视图扩展相比,性能有所提高。

k≥3k\geq 3k≥3 k≥3k\geq 3 k≥3k\geq 3 k≥3k\geq 3 kâ¥3 k ⥠3 k\geq 3 kâ¥3 k⥠k ⥠3 3 kkk kk kk kk k k k k k k 12k(k−1)\tfrac12k(k-1)21​k(k−1) 12k(k−1)\tfrac12k(k-1) 12k(k−1)\tfrac12k(k-1) 12k(k−1)\tfrac12k(k-1) 12k(k−1) 12 1 2 k ( k − 1 ) \tfrac12k(k-1) 21âk(kâ1) 21âk(kâ 21â 21â 21â 21â 21 2 2 2 2 1 1 1 1 k ( k − 1) 1 ) one vs. average-of-rest\textit{one vs. average-of-rest}one vs. average-of-rest one vs. average-of-rest\textit{one vs. average-of-rest} one vs. average-of-rest\textit{one vs. average-of-rest} one vs. average-of-rest\textit{one vs. average-of-rest} 一与平均其余   kkk kk kk kk