关于大型沉克联轴器的流动模型拟合 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

关于大型沉克联轴器的流动模型拟合

2025年12月11日 00:00 33 Comments

来源:Apple机器学习研究

流模型将数据逐渐从一种模态（例如噪声）转换为另一种模态（例如图像）。此类模型通过与时间相关的速度场进行参数化，并经过训练以拟合连接源点和目标点对的线段。当给定源点和目标点之间的配对时，训练流模型可以归结为监督回归问题。当不存在这样的配对时，就像从噪声生成数据时的情况一样，训练流程会困难得多。一种流行的方法是独立选择源点和目标点。然而，这可能会导致速度场训练缓慢，而且在推理时集成成本也很高。理论上，通过从最佳传输 (OT) 测量耦合源和目标中采样对来训练流模型将大大受益，因为这将导致解决 Benamou 和 Brenier 动态 OT 问题的高效流。在实践中，最近的工作提出对 n 个源点和 n 个目标点进行小批量采样，并使用 OT 求解器对它们进行重新排序，以形成更好的对。这些作品提倡使用大小为 n≈256 的批次，并考虑了 OT 求解器返回尖锐的耦合（使用例如匈牙利算法）或模糊的耦合（使用例如熵正则化，又名 Sinkhorn）。我们追随这些工作的脚步，探索将 n 增加三到四个数量级的好处，并更仔细地研究 Sinkhorn 算法中使用的熵正则化 ε 的效果。新的尺度不变量有助于我们的分析，以报告耦合的锐度，而我们跨多个 GPU 或 GPU 节点的分片计算允许按比例放大 n。我们表明，在合成和图像生成任务中，当配备具有低熵正则化 ε 的大型 Sinkhorn 耦合时，流模型会受益匪浅。

† 墨尔本大学

‡ 多伦多大学

** 在 Apple 期间完成的工作

数量级速度场使用相关的完成的模型尖锐的时间相关流行的例如 Sinkhorn 耦合的训练源点耦合算法参数化 OT 不存在 GPU 脚步正则模糊的仔细地使用的不变量最近的目标点按比例进行工作的图像生成节点的动态

关于大型沉克联轴器的流动模型拟合

其他外部链接

Tags

XiaoMi-AI