点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Xu和Zeevi [9]的论文,“贝叶斯的设计原则,用于频繁的顺序学习”,提出了一种解决广泛的顺序决策问题的一般方法。它引入了一种新颖的优化设置,代理商持有“算法信念”,并旨在最大程度地减少遗憾的概念。作者提出了一个新的损失函数,该功能可以使代理使用标准贝叶斯原则更新信念,而无需提交特定的事先。该框架适用于各种多臂强盗和增强学习设置,并在随机,对抗和非平稳的强盗环境中实现了出色的经验性能。这项工作发表在2023年国际机器学习会议(ICML)中,并因其贡献而获得了“杰出纸质奖”。
主要关键词