详细内容或原文请订阅后点击阅览
将多重表示与多重边缘匹配间隙进行对比
学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……
来源:Apple机器学习研究学习可通过多种(kâ¥3k\geq 3kâ¥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于配对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(kâ1)\tfrac12k(k-1)21âk(kâ1) 损失对,或者通过使用减少嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具来同时合并所有 kkk 个视图的损失。给定一批 nnn 个点,每个点被视为一个视图的 kkk 元组,随后转换为 kkk 嵌入,我们的损失对比了将这些 nnn 个真实 kkk 元组进行匹配的成本与 MM-OT 多匹配成本,后者寻求在这些 nÃkn\times knÃk 向量中选择 nnn 个最佳排列的 kkk 元组。虽然 MM-OT 问题的指数复杂度 O(nkO(n^kO(nk) 似乎令人望而生畏,但我们在实验中表明,针对该问题的 Sinkhorn 算法的适当泛化可以扩展到例如,使用大小为 64 â¼12864~\sim12864 â¼128 的小批量,k=3â¼6k=3\sim 6k=3â¼6 个视图。我们的实验表明,对于自监督和多模态任务,与成对损失的多视图扩展相比,性能有所提高。
kâ¥3k\geq 3kâ¥3 kâ¥3k\geq 3