强化学习(RL)是增强面向任务对话(TOD)系统的强大方法。然而,现有的RL方法倾向于主要集中于生成任务,例如对话策略学习(DPL)或反应生成(RG),同时忽略了Dia-Logue State Tracking(DST)进行理解。这个狭窄的焦点限制了系统通过忽视理解与发电之间的相互依赖性来实现全球最佳性能。此外,RL方法面临稀疏和延迟奖励的挑战,这使训练和优化变得复杂。为了解决这些问题,我们通过在整个代币生成中逐步介绍逐步奖励,将RL扩展到理解和生成任务中。随着DST正确填充更多的插槽,理解会增加,而一代奖励则随着用户请求的准确包含而增长。我们的方法提供了与任务完成一致的平衡优化。实验性恢复表明,我们的方法有效地增强了TOD系统的性能,并在三个广泛使用的数据集上获得了新的最新结果,包括Multiwoz2.0,Multiwoz2.1和CAR。与当前模型相比,我们的方法在低资源设置中还显示出优越的射击能力。