详细内容或原文请订阅后点击阅览
从失败中学习,解决极其困难的问题
这篇博文基于 BaNEL 的著作:Exploration Posteriors for Generative Modeling Use Only Negative Rewards。解决非常困难的问题机器学习研究的最终目标是推动机器在关键应用中超越人类的极限,包括下一代定理证明、算法问题解决和药物发现。标准配方包括:(1) 对现有数据进行预训练模型以获得基本模型,然后 (2) 使用衡量生成样本的质量或正确性的标量奖励信号对它们进行后训练。然而,对于这些问题的最困难的实例,我们遇到两个挑战: 稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练而不会遇到正奖励。昂贵的奖励评估:调用奖励预言机可能会很昂贵或有风险,需要昂贵的模拟、计算甚至物理实验。例如,当被要求设计一种癌症治疗方法时,GPT-5 失败了。如果再问一次,会成功吗?可能不会。需要多少次尝试?我们期望成功概率非零(因为 GPT-5 作为一种自回归生成模型,永远不会精确分配零 [...]
来源:ΑΙhub作者:Sangyun Lee 和 Giulia Fanti
这篇博文基于 BaNEL 的著作:Exploration Posteriors for Generative Modeling Use Only Negative Rewards。
BaNEL:仅使用负奖励探索生成模型的后验解决非常困难的问题
机器学习研究的最终目标是推动机器在关键应用中超越人类极限,包括下一代定理证明、算法问题解决和药物发现。标准配方包括:(1) 对现有数据进行预训练模型以获得基本模型,然后 (2) 使用衡量生成样本的质量或正确性的标量奖励信号对它们进行后训练。
然而,对于这些问题中最困难的情况,我们遇到两个挑战:
- 稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练而不会遇到正奖励。 昂贵的奖励评估:调用奖励预言机可能会很昂贵或有风险,需要昂贵的模拟、计算甚至物理实验。
