优化 LLM 测试时间计算涉及解决元 RL 问题

TL;DR:训练模型以优化测试时间计算并学习“如何发现”正确答案,而不是学习“输出什么答案”的传统学习范式,这可以使模型更好地利用数据。迄今为止,改进大型语言模型 (LLM) 的主要策略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是,这种扩展形式似乎很快就会遇到障碍,预训练的扩展定律会趋于稳定,并且有报告称,用于训练的高质量文本数据可能在 2028 年耗尽,特别是对于更困难的任务,例如解决推理问题,这似乎需要将当前数据扩展约 100 倍才能看到任何显着的改进。LLM 在这些困难任务中的问题上的当前表现仍然令人失望(见示例)。因此,迫切需要数据高效的方法来训练 LLM,这些方法可以超越数据扩展并解决更复杂的挑战。在这篇文章中,我们将讨论这样一种方法:通过改变 LLM 训练目标,我们可以重用现有数据以及更多的测试时间计算来训练模型,使其表现更好。当前的 LLM 是针对“回答什么”进行训练的,训练模型的主要原则是 […]

来源:ΑΙhub

图 1:训练模型以优化测试时间计算并学习“如何发现”正确答案,而不是传统的学习“输出什么答案”的学习范式。

图 1:训练模型以优化测试时间计算并学习“如何发现”正确答案,而不是传统的学习“输出什么答案”的学习范式。

作者:Amrith Setlur、Yuxiao Qu、Matthew Yang、Lunjun Zhang、Virginia Smith、Aviral Kumar

作者:Amrith Setlur、Yuxiao Qu、Matthew Yang、Lunjun Zhang、Virginia Smith、Aviral Kumar

迄今为止,改进大型语言模型 (LLM) 的主要策略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是,这种形式的扩展似乎很快就会遇到瓶颈,预训练的扩展定律会趋于稳定,有报告称,用于训练的高质量文本数据可能在 2028 年耗尽,特别是对于更困难的任务,例如解决推理问题,这似乎需要将当前数据扩展约 100 倍才能看到任何显着的改进。LLM 在这些困难任务中的问题上的当前表现仍然令人失望(见示例)。因此,迫切需要数据高效的方法来训练 LLM,这些方法可以超越数据扩展并解决更复杂的挑战。在这篇文章中,我们将讨论一种这样的方法:通过改变 LLM 训练目标,我们可以重用现有数据以及更多的测试时间计算来训练模型以使其表现更好。

预训练停滞 到 2028 年将耗尽 将当前数据缩放约 100 倍 查看示例

当前的 LLM 接受的是“回答什么”的训练

学习“如何回答”可以推广到

这些 论文 Sasha Rush 的演讲 NeurIPS 教程 元策略 图 2:

将学习“如何”制定为目标

将学习“如何”制定为目标 例如

将 (Op-How) 解释为元 RL 问题

标准 主要思想 自适应策略 自适应策略 关于元 RL 的非常非常简短的入门指南。 适应 MAML PEARL