证明自己正确性的模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

证明自己正确性的模型

2026年2月17日 00:00 33 Comments

来源:Apple机器学习研究

我们如何才能相信学习模型对特定感兴趣输入的正确性？模型精度通常是根据输入分布的平均值来衡量的，不保证任何固定输入。本文针对这个问题提出了一个有理论基础的解决方案：训练自我证明模型，通过交互式证明向验证算法 V 证明其输出的正确性。自证明模型满足以下条件：对于从给定分布采样的输入，模型以高概率生成正确的输出，并成功向 V 证明其正确性。V 的健全性保证，对于每个输入，没有模型可以使 V 相信错误输出的正确性。因此，自我证明模型证明了其大部分输出的正确性，而（任何模型的）所有不正确的输出都由 V 检测到。我们设计并分析了两种学习自我证明模型的通用方法：转录学习（TL），它依赖于访问接受交互的转录本；以及来自验证者反馈的强化学习（RLVF），它通过模拟与验证者的交互来训练模型。

† 加州大学伯克利分校

正确性训练模型不正确基础的输入大部分根据交互的转录输出的学习保证模型的交互式给定分布自我正确的证明不正确的健全性相信模型问题理论基础平均值验证输入的

证明自己正确性的模型

其他外部链接

Tags

XiaoMi-AI