线性时间逻辑(LTL)目标的替代奖励通常用于LTL目标的计划问题。在广泛的替代奖励方法中,使用两个折现因素来确保预期收益近似于LTL目标的满意度。可以通过使用Bellman更新(例如增强学习)来估算预期的回报。但是,尚未明确讨论对贝尔曼方程的唯一性,并没有明确讨论两个折扣因素。我们证明了一个示例,即当将折扣因子之一设置为一个,如许多先前的作品中所允许的时,Bellman方程可能具有多个解决方案,从而导致对预期收益的评估不准确。然后,我们提出了一个条件,使钟手方程将预期的回报作为独特的解决方案,要求在拒绝底部连接的组件(BSCC)内的状态解决方案为0。我们证明这种情况是有足够的,可以证明具有折扣的州的解决方案可以与国家的解决方案分开而无需在这种情况下打折。关键字:马尔可夫链,极限确定性b - uchi automaton,可及性,b - uchi条件