Parrondo的悖论是指违反直觉现象,在某种方式以某种方式交替时,两种失败的策略可能会导致胜利。了解Parrondo游戏中的最佳序列对于在各种情况下最大化利润至关重要。但是,当前的预定序列可能无法很好地适应不断变化的环境,从而限制了它们实现最佳性能的潜力。我们认为,决定要玩的游戏的最佳策略应该可以通过经验来学习。在这封信中,我们提出了一种有效且强大的方法,该方法利用Q学习能够适应地学习Parrondo游戏中的最佳顺序。通过对抛售游戏的大量模拟,我们证明了帕伦多游戏中博学的切换策略在Pro-File方面优于其他预定的序列。此外,实验结果表明,我们提出的方法很容易调整以适应不同的资本依赖游戏和与历史有关的游戏。
1. Hendriks RW, Yuvaraj S, Kil LP。针对 B 细胞恶性肿瘤中的布鲁顿酪氨酸激酶。Nat Rev Cancer。2014;14(4):219-232 2. Pal Singh S, Dammeijer F, Hendriks RW。布鲁顿酪氨酸激酶在 B 细胞和恶性肿瘤中的作用。Mol Cancer。2018;17(1):57。 3. Preetesh J 等人。Br J Haematol。2018;183(4):578-87 4. Xu L 等人。Blood。2017;129(18):2519-2525 5. Woyach J 等人。Blood。2019;134(1):504 6. Wang H 等人。在 EHA 2023 上发表的海报;摘要编号:P1219 7. Feng X 等人在 EHA 2023 上发表的海报;摘要编号:P1239 8. Seymour JF 等人在 ASH 2023 上发表的海报;海报编号 4401 9. Parrondo R 等人在 EHA 2024 上发表的口头报告;S157 10. https://clinicaltrials.gov/study/NCT05006716 11. https://ir.beigene.com/news/beigene-s-bgb-16673-receives-us-fda-fast-track-designation-for-cll-sll/ed433e34-61fd-4d89-
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。