决策变压器(DT)是一种创新的责任,利用了强化学习(RL)的跨前结构的最新进展。然而,DT的一个显着限制是其对回忆数据集的轨迹的依赖性,使能力无缝缝合亚壁轨迹。在这项工作中,我们引入了一个通用序列建模框架,用于通过层次RL的角度进行顺序决策进行研究。在做出决定时,高级政策首先提出了当前状态的理想提示,而低级政策随后在给定提示中生成了一项诉讼。我们表明,DT是该框架的特殊情况,并具有某些高级和低级政策的选择,并讨论了这些选择的潜在失败。受这些观察的启发,我们研究了如何共同优化高级和低级政策以实现缝合能力,这进一步导致了新的rl算法的发展。我们的经验结果清楚地表明,所构成的算法在数量控制和导航基准上显着超过了DT。我们希望我们的贡献能够激发RL领域内变压器体系结构的整合。