在E步骤中制作的还将蒙特卡洛错误引入了优化目标。 为了减轻这些问题,我们应用随机梯度上升,并且在每个M步骤中仅采取一个梯度步骤。 我们还应用了基于动量的优化器,例如Adam [9],以跨多个M步骤汇总梯度,以抑制Monte Carlo误差的效果。 我们在模拟数据集和现实数据集上评估了我们提出的算法。 我们将稳定方法与几种基线方法进行了比较,包括基于随机变异推断的最近开发的学习技术和首先执行状态估计然后应用监督学习的混合方法。 我们的主要结果表明,稳定的表现始终优于所有其他基线,并实现与直接从地面真相轨迹中学习的性能。 总而言之,我们做出以下贡献:在E步骤中制作的还将蒙特卡洛错误引入了优化目标。为了减轻这些问题,我们应用随机梯度上升,并且在每个M步骤中仅采取一个梯度步骤。我们还应用了基于动量的优化器,例如Adam [9],以跨多个M步骤汇总梯度,以抑制Monte Carlo误差的效果。我们在模拟数据集和现实数据集上评估了我们提出的算法。我们将稳定方法与几种基线方法进行了比较,包括基于随机变异推断的最近开发的学习技术和首先执行状态估计然后应用监督学习的混合方法。我们的主要结果表明,稳定的表现始终优于所有其他基线,并实现与直接从地面真相轨迹中学习的性能。总而言之,我们做出以下贡献: