强化学习 (RL) 算法通常利用学习和/或规划技术来得出有效的策略。事实证明,将这两种方法结合起来在解决复杂的顺序决策挑战方面非常成功,AlphaZero 和 MuZero 等算法就是明证,它们将规划过程整合到参数搜索策略中。AIXI 是通用贝叶斯最优代理,它利用通过全面搜索进行规划作为寻找最优策略的主要手段。在这里,我们定义了一个替代的通用贝叶斯代理,我们称之为 Self-AIXI,与 AIXI 相反,它最大限度地利用学习来获得良好的策略。它通过自我预测自己的动作数据流来实现这一点,这些数据流的生成方式与其他 TD(0) 代理类似,是通过对当前的在策略(通用混合策略)Q 值估计采取动作最大化步骤来生成的。我们证明 Self-AIXI 收敛到 AIXI,并继承了一系列属性,如最大 Legg-Hutter 智能和自我优化属性。
主要关键词