详细内容或原文请订阅后点击阅览
通过强化学习实施 Vibe 证明
如何让法学硕士通过可验证的、逐步的逻辑进行推理(第 2 部分)这篇文章《利用强化学习实现 Vibe 证明》首先出现在《走向数据科学》上。
来源:走向数据科学“众所周知,数学朝着更高精度的方向发展导致了数学的大量形式化,这样人们就可以只使用一些机械规则来证明任何定理。”
—K.哥德尔
在第 1 部分中,我们构建了一个证明检查器,并开发了一个心理模型,解释为什么我们应该信任法学硕士得出的证明:只要我们有形式化的推理和健全的验证器,我们所需要的就是“一些机械规则”。那么我们如何训练法学硕士来生成有效的证明呢?
正如 DeepSeek 精美地展示的那样,人工智能学习围棋游戏背后的直觉同样适用于人工智能学习如何推理,只要推理可以被检查(现在我们知道它可以)。在第二部分中,我们充分利用验证器并构建端到端 RL 训练循环来微调开源模型,以使用我们在第 1 部分中介绍的语言生成证明:乍一看,下图显示了流程的基本组成部分。
TL;DR:经过一些人机协作生成数据集(利用我们的检查器对 LLM 生成的示例进行完整性检查),我们在 Tinker 上运行 RL 循环,对开源模型进行 LoRA 风格的微调。我们向模型提示(1)我们的语言如何工作,(2)如何应用规则来构建证明,以及(3)如何格式化答案以便于解析。然后,每个证明都会通过证明检查器,并且奖励会传播回去以提高模型的能力:理想情况下,模型将从大多数失败的证明尝试开始,然后随着训练的进展而逐渐变得更好。
请注意,虽然该系列专门针对数学推理,但可验证的证明对于建立分布式软件系统的信心至关重要。正如一些专家所说,人工智能很可能是大规模证明软件正确性所缺少的要素!
系好安全带,克隆存储库,然后编写代码。如果您跳过了第一部分,您可以在这里阅读!
数据集生成
我们的训练混合物是三个来源的组合:
