本文研究了任何时间竞争性马尔可夫决策过程(A-CMDP)的问题。现有在受约束的马尔可夫决策过程(CMDP)上的现有作品旨在优化预期的奖励,同时将预期成本限制在随机动态上,但是特定情节中的成本仍然不令人满意。相比之下,A-CMDP的目标是优化预期的奖励,同时保证任何情节的每轮有限成本与之前的政策。我们提出了一种新算法,称为任何时间竞争力的增强学习(ACRL),可以保证任何时间的成本限制。遗憾的分析表明,该政策渐近与任何时间竞争性约束下可获得的最佳奖励匹配。有关碳智能计算的应用实验,可以验证ACRL的奖励性能和成本约束保证。