语言模型从混合到专业领域的最佳分割 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

语言模型从混合到专业领域的最佳分割

2026年3月23日 00:00 33 Comments

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。由于可用预训练数据的规模和多样性，语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例：首先对完整的数据语料库进行预训练，然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中，这涉及在每个专门领域上持续预训练多个模型，称为……

来源:Apple机器学习研究

本文已被 ICLR 2026 基础模型导航和解决数据问题研讨会接受。

由于可用预训练数据的规模和多样性，语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例：首先对完整的数据语料库进行预训练，然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中，这涉及在每个专门领域上持续预训练多个模型，称为分割模型训练。我们提出了一种在通用预训练语料库上独立预训练多个模型的方法，并使用缩放法则确定预训练和持续预训练之间的最佳计算分配。我们的方法通过 D 预训练和 D' 专业化标记准确预测大小为 N 的模型的损失，并推断到更大的模型大小和标记数量。应用于语言模型训练时，我们的方法可以在不同模型大小和计算预算的常识知识和推理基准上一致地提高性能。

† 新加坡国立大学，新加坡

专门化训练提高知识两阶段标记研讨会语料库数据模型的方法标准训练推理大小高性能语言领域性能模型专业化完整的质量提高性能训练方法

语言模型从混合到专业领域的最佳分割

其他外部链接

Tags

XiaoMi-AI