MixAtlas:多模式 LLM 中期训练的不确定性感知数据混合优化

本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......

来源:Apple机器学习研究

本文已被 ICLR 2026 的基础模型导航和解决数据问题研讨会 (NADPFM) 接受。

有原则的域重加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架。 MixAtlas 沿着两个可解释的轴分解训练数据——\emph{图像概念}和\emph{任务监督}——实现可解释的混合控制以及下游性能对每个轴内特定域的细粒度归因。使用小型代理模型和高斯过程代理,我们以全面训练成本的 1/100 探索混合空间。由此产生的混合物产生了显着的改进:与现有方法相比,收敛速度提高了 3 倍,并且在不同基准测试中一致获得了 2-5% 的增益,尤其是对 ChartQA (+10%) 和 TextVQA (+13%) 等文本丰富的基准测试的强劲提升。重要的是,我们表明,通过较小的代理模型获得的混合物可以转移到更大规模的模型训练,从而保持效率和准确性的提高。总体而言,MixAtlas 使多模式混合优化变得实用且可解释,为训练下一代 MLLM 提供了具体的、计算高效的方法。

  • † 弗吉尼亚理工大学
  • ‡ 华盛顿大学
  • ** 在 Apple 期间完成的工作