自我对弈是马尔可夫博弈中构建解决方案的常见范例,可以在协作环境中产生最优策略。然而,这些策略通常采用高度专业化的惯例,这使得与新伙伴一起玩变得困难。为了解决这个问题,最近的方法依赖于将对称性和惯例意识编码到策略训练中,但这需要很强的环境假设,并且会使策略训练复杂化。因此,我们建议将惯例的学习转移到信念空间。具体来说,我们提出了一个信念学习模型,该模型可以在训练时保持对未见过的策略推出的信念,从而可以在测试时解码和适应新的惯例。我们展示了如何利用这个模型在各种策略池中搜索和训练最佳响应,以大大改善临时团队合作。我们还展示了我们的设置如何促进细微代理惯例的可解释性和可解释性。