从失败中学习,解决极其困难的问题

这篇博文基于 BaNEL 的著作:Exploration Posteriors for Generative Modeling Use Only Negative Rewards。解决非常困难的问题机器学习研究的最终目标是推动机器在关键应用中超越人类的极限,包括下一代定理证明、算法问题解决和药物发现。标准配方包括:(1) 对现有数据进行预训练模型以获得基本模型,然后 (2) 使用衡量生成样本的质量或正确性的标量奖励信号对它们进行后训练。然而,对于这些问题的最困难的实例,我们遇到两个挑战: 稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练而不会遇到正奖励。昂贵的奖励评估:调用奖励预言机可能会很昂贵或有风险,需要昂贵的模拟、计算甚至物理实验。例如,当被要求设计一种癌症治疗方法时,GPT-5 失败了。如果再问一次,会成功吗?可能不会。需要多少次尝试?我们期望成功概率非零(因为 GPT-5 作为一种自回归生成模型,永远不会精确分配零 [...]

来源:ΑΙhub

作者:Sangyun Lee 和 Giulia Fanti

这篇博文基于 BaNEL 的著作:Exploration Posteriors for Generative Modeling Use Only Negative Rewards。

BaNEL:仅使用负奖励探索生成模型的后验

解决非常困难的问题

机器学习研究的最终目标是推动机器在关键应用中超越人类极限,包括下一代定理证明、算法问题解决和药物发现。标准配方包括:(1) 对现有数据进行预训练模型以获得基本模型,然后 (2) 使用衡量生成样本的质量或正确性的标量奖励信号对它们进行后训练。

然而,对于这些问题中最困难的情况,我们遇到两个挑战:

    稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练而不会遇到正奖励。 昂贵的奖励评估:调用奖励预言机可能会很昂贵或有风险,需要昂贵的模拟、计算甚至物理实验。
  • 稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练而不会遇到正奖励。
  • 稀疏性:
  • 昂贵的奖励评估:调用奖励预言机可能会很昂贵或有风险,需要昂贵的模拟、计算甚至物理实验。
  • 昂贵的奖励评估:
    GPT-5 在此示例查询中获得零奖励。
    针对特定蛋白质靶标的高活性 成功率接近于零 奖励评价次数 基于计数的探索 随机网络蒸馏

    从负面奖励中学习

    同样的错误不要犯两次! 利用故障背后的结构。 在大多数需要智慧才能成功的任务中,失败并不是任意的。

    学习失败的生成模型