Parrondo的悖论是指违反直觉现象,在某种方式以某种方式交替时,两种失败的策略可能会导致胜利。了解Parrondo游戏中的最佳序列对于在各种情况下最大化利润至关重要。但是,当前的预定序列可能无法很好地适应不断变化的环境,从而限制了它们实现最佳性能的潜力。我们认为,决定要玩的游戏的最佳策略应该可以通过经验来学习。在这封信中,我们提出了一种有效且强大的方法,该方法利用Q学习能够适应地学习Parrondo游戏中的最佳顺序。通过对抛售游戏的大量模拟,我们证明了帕伦多游戏中博学的切换策略在Pro-File方面优于其他预定的序列。此外,实验结果表明,我们提出的方法很容易调整以适应不同的资本依赖游戏和与历史有关的游戏。