控制在线错误。在线错误是贪婪策略W.R.T.下的当前价值函数的钟声错误。功能。该术语表明该过程中有一个隐式探索:如果当前值函数自行准确,那么我们就完成了;否则,我们将探索。为了束缚这个术语,我们可以在线RL文献中使用任何现有的复杂性度量,以衡量“在结构化的MDP中可以期待多少分发的次数”,例如,Bellman Rank(Jiang et al.,2017年),双线性等级(Du等人,2021),贝尔曼·埃德德(Bellman Eluder)维度(Jin等人,2021)或覆盖范围(Xie等人,2023)。在本说明中,我们以双线性等级为例。