详细内容或原文请订阅后点击阅览
在测试时重用预训练数据是一个计算乘数
大型语言模型从庞大的预训练语料库中学习,获得解决不断增加的各种任务的能力;然而,尽管研究人员致力于改进这些数据集,但很少有人努力去了解预训练设备从数据中提取想法和知识的效率。在这项工作中,我们使用检索增强生成和测试时计算来量化预训练过程中留下的数据集价值,以及这种变化在规模上的变化。我们证明了预训练然后从标准中检索......
来源:Apple机器学习研究大型语言模型从庞大的预训练语料库中学习,获得解决不断增加的各种任务的能力;然而,尽管研究人员致力于改进这些数据集,但很少有人努力去了解预训练设备从数据中提取想法和知识的效率。在这项工作中,我们使用检索增强生成和测试时计算来量化预训练过程中留下的数据集价值,以及这种变化在规模上的变化。我们证明,预训练然后从标准和大部分开源数据集中检索可以显着提高 MMLU、Math-500 和 SimpleQA 的准确性,并且在净化后仍能保持这种准确性。对于 MMLU,我们观察到与单独的预训练相比,检索的计算乘数约为 5 倍。我们表明,通过在测试时利用额外的计算来解析检索到的上下文,可以进一步改进这些结果,证明公共 LLaMA 3.1 8B 模型的 MMLU 提高了 10 个百分点。总的来说,我们的结果表明,当今的预训练方法没有充分利用现有预训练数据集中的信息,留下了很大的进步空间。
