Learning from failure to tackle extremely hard problems
这篇博文基于 BaNEL 的著作:Exploration Posteriors for Generative Modeling Use Only Negative Rewards。解决非常困难的问题机器学习研究的最终目标是推动机器在关键应用中超越人类的极限,包括下一代定理证明、算法问题解决和药物发现。标准配方包括:(1) 对现有数据进行预训练模型以获得基本模型,然后 (2) 使用衡量生成样本的质量或正确性的标量奖励信号对它们进行后训练。然而,对于这些问题的最困难的实例,我们遇到两个挑战: 稀疏性:基本生成模型获得接近于零的奖励信号。产生正奖励样本的概率可能非常低,以至于模型可能会经历大部分训练
The Ring: discount rates edition
锁在黑暗的井底是一个看起来很漂亮的主意。 “在考虑代际问题时,将折扣率设置为非常低的水平。”这是一个看起来很漂亮的想法。我们不打折水电费。未来的人很重要。传统的贴现率意味着遥远的收益或成本几乎为零。难道我们不关心未来的人吗?让美好的想法从井里流出来。当然,它只会用于非常长期、具有百年回报的环境项目。到底是谁把它锁在井里的?一定是坏人出于不好的原因。让美好的想法从井中消失。释放它!几十年前,财政部曾对公共选择的考虑因素发出警告。关于这种事情为什么可能是一个坏主意,以及它是一个坏主意的原因,以及如果你想把它从井里放出来可能需要的保障措施。最近,财政部改为从井里喝水。我对这一举措非常怀疑,认为拟议的