Loading...
机构名称:
¥ 5.0

s 2 ak遗憾的上限,其中s,a,k,h,t = kh和β分别代表状态,动作,情节,时间范围,总时间段数量和风险参数的数量。它与RSVI2(Fei等人,2021年)匹配,与新的分布分析有关,重点是回报的分布,而不是与这些回报相关的风险值。据我们所知,这是第一个遗憾的分析,即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法,我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时,它显着扩大了计算效率。

桥接分配和对风险敏感的增强学习和可证明的后悔界限

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第1页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第2页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第3页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第4页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第5页

相关文件推荐

2021 年
¥5.0
2025 年
¥2.0
2024 年
¥1.0
2021 年
¥1.0
2021 年
¥3.0
2023 年
¥1.0
2024 年
¥2.0
2023 年
¥2.0
1900 年
¥1.0
2024 年
¥5.0
2019 年
¥3.0
2025 年
¥1.0
2025 年
¥2.0
2024 年
¥2.0
2019 年
¥5.0
2024 年
¥7.0
2024 年
¥1.0
2023 年
¥1.0