Loading...
机构名称:
¥ 1.0

证明。由于我们有兴趣将差异vπ(s)-vπ'(s)界限,因此我们可以将奖励奖励r(s,a)∈[ - 1,1]映射到新的奖励1 + r(s,a)∈[0,2]而不会影响状态值函数的差异。因此,在没有一般性的情况下,我们可以假设奖励在[0,2]中有限。对于任何s∈S,概率为1 -ε,我们具有π'(·| s)=π(·| s)。令T为随机范围,Tε是π和π'首次从两个不同的分布中选择其作用。因此,p(tε> t |t≥t)=(1 -ε)t。让rπt是从s 0 = s开始的时间t的π的奖励。然后

无模型RL

无模型RLPDF文件第1页

无模型RLPDF文件第2页

无模型RLPDF文件第3页

无模型RLPDF文件第4页

无模型RLPDF文件第5页

相关文件推荐

2024 年
¥24.0
2020 年
¥1.0
2022 年
¥1.0
2025 年
¥7.0
2021 年
¥1.0
2019 年
¥5.0
2023 年
¥1.0
2022 年
¥1.0