摘要。我们介绍了旨在以统一的方式解决连续空间均值场(MFG)和平均场控制(MFC)问题的增强学习算法的开发和分析。所提出的方法通过参数化的分数函数将参与者 - 批判性(AC)范式与平均场分布的表示形式配对,可以以在线方式进行有效更新,并使用Langevin Dynamics从产生的分布中获取样品。AC代理和分数函数被迭代更新以收敛到MFG平衡或给定平均领域问题的MFC Optimum,具体取决于学习率的选择。算法的直接修改使我们能够求解混合的均值场控制游戏。使用在有限的地平线框架中使用线性界面基准来评估我们的算法的性能。