详细内容或原文请订阅后点击阅览
证明自己正确性的模型
我们如何才能相信学习模型对特定感兴趣输入的正确性?模型精度通常是根据输入分布的平均值来衡量的,不保证任何固定输入。本文针对这个问题提出了一个有理论基础的解决方案:训练自我证明模型,通过交互式证明向验证算法 V 证明其输出的正确性。自证明模型满足以下条件:对于从给定分布采样的输入,模型以高概率生成正确的输出并成功证明其对 V 的正确性。...
来源:Apple机器学习研究我们如何才能相信学习模型对特定感兴趣输入的正确性?模型精度通常是根据输入分布的平均值来衡量的,不保证任何固定输入。本文针对这个问题提出了一个有理论基础的解决方案:训练自我证明模型,通过交互式证明向验证算法 V 证明其输出的正确性。自证明模型满足以下条件:对于从给定分布采样的输入,模型以高概率生成正确的输出,并成功向 V 证明其正确性。V 的健全性保证,对于每个输入,没有模型可以使 V 相信错误输出的正确性。因此,自我证明模型证明了其大部分输出的正确性,而(任何模型的)所有不正确的输出都由 V 检测到。我们设计并分析了两种学习自我证明模型的通用方法:转录学习(TL),它依赖于访问接受交互的转录本;以及来自验证者反馈的强化学习(RLVF),它通过模拟与验证者的交互来训练模型。
