了解 Vibe 证明 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

了解 Vibe 证明

2025年12月22日 13:30 33 Comments

如何让法学硕士通过可验证的、逐步的逻辑进行推理（第 1 部分）《理解氛围证明》一文首先出现在《走向数据科学》上。

来源:走向数据科学

“我无法创造的东西，我就不理解”

— 出自 R. Feynman

Vibe Coding 之后，我们似乎进入了 Vibe Proving（非常小众，但更酷）的时代：DeepMind 在国际数学奥林匹克竞赛中赢得金牌，Harmonic 解决了数论中的一个不平凡的问题，并且历史上第一次人工智能系统似乎正在做严肃的数学。

与此同时，我们不断地被提醒法学硕士产生了幻觉：似乎我们手头有一个悖论。如果法学硕士既能产生垃圾文本（包括数学证明），又能产生正确的推理（包括数学推理），我们如何判断哪些模型完成是好的，哪些是幻觉？

LinkedIn 长度的简短答案是，我们使用法学硕士来生成数学推理，然后我们将我们的信任外化到验证它的特殊软件。但这个简短的答案又引发了新的问题：

这个“特殊软件”是如何工作的？

为什么我们信任它？

我们如何训练法学硕士使用它进行证明？

撰写有关“法学硕士和数学”等宏大想法的文章很诱人，在尽可能普遍的环境中提供直观、非严格的答案。举个例子，这就是一本新书试图向您推销整个“数学和计算机”故事的方式：

几个世纪以来思想家一直在寻求的“真理神谕”，一种明确验证或反驳任何数学或逻辑断言的工具。（……）[本书]为一个长期存在的谜团提供了深刻的答案：计算机能否揭示普遍真理？

我们将在这里做完全相反的事情。我们将从头开始构建一个 LLM-for-proofs 系统，而不是听起来奇迹般的词语和类比，其目标是为简单的场景提供准确的答案：我们获得了精确性，交换了一些通用性。我们不追求大局观论，而是努力寻找可用于简单“证明”的可检查脚本。我们将指南分为两部分，也可以单独欣赏：

现在，系好安全带，克隆存储库和代码。

—G. H.哈代

...

严格的产生推理通用性准确的相反的为什么计算机法学硕士简短答案人工智能包括幻觉提供使用训练法数学普遍的意味着正确的验证精确性似乎安全带工作的证明简单的软件