对此限制的潜在补救措施正在扩大算法利用的反馈。一种这样的方法是事后观察经验重播(她)(Andrychowicz等,2017)。她建立在Bellman方程式上以学习通用价值功能(Sutton等,2011; Schaul等,2015)。假设目标是达到某种目标状态,标准值函数仅根据其达到此目标的能力来估计状态的价值。相比之下,通用价值函数可预测任何其他状态的任何状态。她利用学习过程中遇到的状态来学习这种普遍的价值功能,利用富裕的反馈,而不是达到目标是否达到目标。考虑到这一点,文献中的几项作品应用于ATP(Aygéun等,2022; Trinh等,2024; Poesia等,2024)。