Loading...
机构名称:
¥ 2.0

由于上述困难,最近的研究[8,17,23,31,35]显示出对利用高级逻辑规范的兴趣,尤其是线性时间逻辑[7](LTL),以表达意图。然而,由于LTL的敏感性,引起了重大的挑战,类似于其他有限的Horizo​​n目标,例如平均奖励和安全性,也与过渡概率的微小变化相似。即使在过渡概率中进行了轻微的修改,也会导致对价值的显着影响,例如使以前无法实现的状态达到可达到。带有有关过渡概率的其他信息,例如最小非零过渡概率,LTL被证明不可能近似正确(PAC)[29]可学习[3,43]。理想情况下,希望保持PAC学习能力,同时仍然保持高度表达的时间逻辑的好处。

折扣LTL

折扣LTLPDF文件第1页

折扣LTLPDF文件第2页

折扣LTLPDF文件第3页

折扣LTLPDF文件第4页

折扣LTLPDF文件第5页