在测试时重用预训练数据是一个计算乘数 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在测试时重用预训练数据是一个计算乘数

2025年12月12日 00:00 33 Comments

大型语言模型从庞大的预训练语料库中学习，获得解决不断增加的各种任务的能力；然而，尽管研究人员致力于改进这些数据集，但很少有人努力去了解预训练设备从数据中提取想法和知识的效率。在这项工作中，我们使用检索增强生成和测试时计算来量化预训练过程中留下的数据集价值，以及这种变化在规模上的变化。我们证明了预训练然后从标准中检索......

来源:Apple机器学习研究

大型语言模型从庞大的预训练语料库中学习，获得解决不断增加的各种任务的能力；然而，尽管研究人员致力于改进这些数据集，但很少有人努力去了解预训练设备从数据中提取想法和知识的效率。在这项工作中，我们使用检索增强生成和测试时计算来量化预训练过程中留下的数据集价值，以及这种变化在规模上的变化。我们证明，预训练然后从标准和大部分开源数据集中检索可以显着提高 MMLU、Math-500 和 SimpleQA 的准确性，并且在净化后仍能保持这种准确性。对于 MMLU，我们观察到与单独的预训练相比，检索的计算乘数约为 5 倍。我们表明，通过在测试时利用额外的计算来解析检索到的上下文，可以进一步改进这些结果，证明公共 LLaMA 3.1 8B 模型的 MMLU 提高了 10 个百分点。总的来说，我们的结果表明，当今的预训练方法没有充分利用现有预训练数据集中的信息，留下了很大的进步空间。

† 斯坦福大学

** 在 Apple 期间完成的工作

研究人员集中的训练 MMLU 测试提高大部分单独的庞大的检索工作中语料库额外的数据完成的学习增加的变化模型的充分利用训练设备留下准确性数据集证明计算改进致力于百分点训练方法

在测试时重用预训练数据是一个计算乘数

其他外部链接

Tags

XiaoMi-AI