详细内容或原文请订阅后点击阅览
关于大型沉克联轴器的流动模型拟合
流模型将数据逐渐从一种模态(例如噪声)转换为另一种模态(例如图像)。此类模型通过与时间相关的速度场进行参数化,并经过训练以拟合连接源点和目标点对的线段。当给定源点和目标点之间的配对时,训练流模型可以归结为监督回归问题。当不存在这样的配对时,就像从噪声生成数据时的情况一样,训练流程会困难得多。一种流行的方法是独立选择源点和目标点。然而,这可能会导致速度场变慢......
来源:Apple机器学习研究流模型将数据逐渐从一种模态(例如噪声)转换为另一种模态(例如图像)。此类模型通过与时间相关的速度场进行参数化,并经过训练以拟合连接源点和目标点对的线段。当给定源点和目标点之间的配对时,训练流模型可以归结为监督回归问题。当不存在这样的配对时,就像从噪声生成数据时的情况一样,训练流程会困难得多。一种流行的方法是独立选择源点和目标点。然而,这可能会导致速度场训练缓慢,而且在推理时集成成本也很高。理论上,通过从最佳传输 (OT) 测量耦合源和目标中采样对来训练流模型将大大受益,因为这将导致解决 Benamou 和 Brenier 动态 OT 问题的高效流。在实践中,最近的工作提出对 n 个源点和 n 个目标点进行小批量采样,并使用 OT 求解器对它们进行重新排序,以形成更好的对。这些作品提倡使用大小为 n≈256 的批次,并考虑了 OT 求解器返回尖锐的耦合(使用例如匈牙利算法)或模糊的耦合(使用例如熵正则化,又名 Sinkhorn)。我们追随这些工作的脚步,探索将 n 增加三到四个数量级的好处,并更仔细地研究 Sinkhorn 算法中使用的熵正则化 ε 的效果。新的尺度不变量有助于我们的分析,以报告耦合的锐度,而我们跨多个 GPU 或 GPU 节点的分片计算允许按比例放大 n。我们表明,在合成和图像生成任务中,当配备具有低熵正则化 ε 的大型 Sinkhorn 耦合时,流模型会受益匪浅。
