我们开发了一种一般理论,以优化顺序学习概率的频繁遗憾,其中有效的强盗和强化学习算法可以从统一的贝叶斯原理中得出。我们提出了一种新颖的优化方法,以在每一轮中产生“算法信念”,并使用贝叶斯后代做出决定。创建“算法信念”的优化目标,我们称其为“算法信息比”,代表了一种有效地表征任何算法的频繁遗憾的Intrinsic复杂性度量。据我们所知,这是以通用且最佳的方式使贝叶斯型算法保持不含和适用于对抗设置的第一种系统性方法。此外,算法很简单且通常可以实现。作为一种主要应用,我们为多臂匪徒提供了一种新颖的算法,该算法在随机,对抗性和非平稳环境中实现了“最佳世界”的表现。我们说明了这些原理如何在线性匪徒,强盗凸优化和增强学习中使用。