Loading...
机构名称:
¥ 1.0

控制在线错误。在线错误是贪婪策略W.R.T.下的当前价值函数的钟声错误。功能。该术语表明该过程中有一个隐式探索:如果当前值函数自行准确,那么我们就完成了;否则,我们将探索。为了束缚这个术语,我们可以在线RL文献中使用任何现有的复杂性度量,以衡量“在结构化的MDP中可以期待多少分发的次数”,例如,Bellman Rank(Jiang et al.,2017年),双线性等级(Du等人,2021),贝尔曼·埃德德(Bellman Eluder)维度(Jin等人,2021)或覆盖范围(Xie等人,2023)。在本说明中,我们以双线性等级为例。

混合RL

混合RLPDF文件第1页

混合RLPDF文件第2页

混合RLPDF文件第3页

混合RLPDF文件第4页

混合RLPDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥24.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2008 年
¥1.0
2020 年
¥1.0
2024 年
¥4.0
2023 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2025 年
¥7.0
2023 年
¥4.0
2022 年
¥5.0
2024 年
¥1.0
2024 年
¥4.0
2023 年
¥3.0
2019 年
¥1.0
1900 年
¥5.0
2024 年
¥34.0