强化学习算法已知可以根据问题结构表现出多种收敛率。近年来,在开发依赖实例的理论以及实现此类实例最佳保证的算法中取得了很大的进步。但是,如何将这些概念用于推论目的或提早停止,因此仍然存在重要的问题,以便可以为“简单”问题保存数据和计算资源。本文开发了与数据相关的程序,这些过程与实例相关的信心区域进行评估和优化马尔可夫决策过程中的策略。值得注意的是,我们的过程仅需要黑框访问实例 - 最佳算法,然后重复使用估计算法本身中使用的样品。由此产生的数据依赖性停止规则适应了问题的实例特异性,并允许提早终止有利结构的问题。我们通过一些数值研究强调了这种早期停止规则的好处。关键字:强化学习,策略评估,信心间隔,实例依赖性,实例最佳性