桥接分配和对风险敏感的增强学习和可证明的后悔界限__

桥接分配和对风险敏感的增强学习和可证明的后悔界限

可下载资源数量

已经购买

下载数量：1

单价	0 5.0
Coupon	100% 0%
Total	0 5.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

桥接分配和对风险敏感的增强学习和可证明的后悔界限

¥ 5.0

热度

s 2 ak遗憾的上限，其中s，a，k，h，t = kh和β分别代表状态，动作，情节，时间范围，总时间段数量和风险参数的数量。它与RSVI2（Fei等人，2021年）匹配，与新的分布分析有关，重点是回报的分布，而不是与这些回报相关的风险值。据我们所知，这是第一个遗憾的分析，即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法，我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时，它显着扩大了计算效率。

添加pdf代下载 VIP点击下载文件

桥接分配和对风险敏感的增强学习和可证明的后悔界限

主要关键词

风险固有的表示总时间 ak 界限的计算效率分布 RSVI2 算法时间段数量参数的桥接复杂性相关的时间范围计算样本回报遗憾动作 DRL kh Fei

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第1页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第2页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第3页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第4页

桥接分配和对风险敏感的增强学习和可证明的后悔界限PDF文件第5页

可下载资源数量

已经购买

下载数量：1

桥接分配和对风险敏感的增强学习和可证明的后悔界限

桥接分配和对风险敏感的增强学习和可证明的后悔界限

相关文件推荐

增强学习

增强学习

增强学习

通过增强学习

增强学习

增强学习

增强学习

二元增强学习

通过增强学习

增强学习

逆增强学习

概率增强学习障碍预测临床高风险的Psychosi

逆增强算法学习

增强学习是您需要的

微调中的增强学习价值

了解逆增强学习

suppodular增强学习

学习为增强学习优化

控制系统和增强学习

增强学习（E061360）

增强学习（MIE1630）

增强学习是您需要的

基于评级的增强学习

无模型增强学习

通过微小的增强学习

离线增强学习

增强学习中的评估

进化增强学习

技术增强学习

风险感知的强化学习

XiaoMi-AI