线性时间逻辑(LTL)目标的替代奖励通常用于LTL目标的计划问题。在广泛的替代奖励方法中,使用两个折现因素来确保预期收益近似于LTL目标的满意度。可以通过使用Bellman更新(例如增强学习)来估算预期的回报。但是,尚未明确讨论对贝尔曼方程的唯一性,并没有明确讨论两个折扣因素。我们证明了一个示例,即当将折扣因子之一设置为一个,如许多先前的作品中所允许的时,Bellman方程可能具有多个解决方案,从而导致对预期收益的评估不准确。然后,我们提出了一个条件,使钟手方程将预期的回报作为独特的解决方案,要求在拒绝底部连接的组件(BSCC)内的状态解决方案为0。我们证明这种情况是有足够的,可以证明具有折扣的州的解决方案可以与国家的解决方案分开而无需在这种情况下打折。关键字:马尔可夫链,极限确定性b - uchi automaton,可及性,b - uchi条件
为避免歧义,我们在本节中强调 ε = − 1。如果区域 M ext = (0 , x 0 ] × Q ⊂ M ,其中 Q 是紧 ( n − 1) 维流形,并且当 x 趋向于零时,g 的截面曲率趋向于一个(负)常数,其中 x 是沿 M ext 的第一个因子的坐标,并且度量 x 2 g 平滑扩展到 [0 , x 0 ] × Q 上的黎曼度量,则称该区域为渐近局部双曲 (ALH) 端。(假设最后一个性质,截面曲率条件等同于要求 | dx | x 2 g(即,度量 x 2 g 中 dx 的范数)在趋近于“无穷远处的共形边界” { x = 0 } 时趋向于一。)黎曼流形(M, g ) 称为 ALH,如果它是完备的,并且包含有限个 ALH 端。因此,M 的无穷边界 ∂M ∞ 将是有限个流形 Q 的并集,如上所示。广义相对论的哈密顿分析经过多次分部积分后,得出 ALH 端质量的以下公式 [9] 3(比较 [10])