s 2 ak遗憾的上限,其中s,a,k,h,t = kh和β分别代表状态,动作,情节,时间范围,总时间段数量和风险参数的数量。它与RSVI2(Fei等人,2021年)匹配,与新的分布分析有关,重点是回报的分布,而不是与这些回报相关的风险值。据我们所知,这是第一个遗憾的分析,即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法,我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时,它显着扩大了计算效率。