具有二次正则化的线性程序由于其在最佳运输方面的应用而引起了新的兴趣:与熵正则化不同,平方惩罚导致最佳运输耦合的近似值稀少。众所周知,当正则化参数趋于零时,在任何多层层上的四个正规化线性程序的解会收敛到线性程序的最小值解决方案。但是,该结果仅是定性的。我们的主要结果通过指定正规化参数的确切阈值来量化收敛性,然后正则化解决方案还求解线性程序。此外,我们在阈值之前绑定了调节解的次优性。这些结果与大规模正规化制度的收敛速率相辅相成。我们将一般结果应用于最佳传输的设置,在那里我们阐明了阈值和次级次要性如何取决于数据点的数量。
我们从多智能体强化学习 (MARL) 的角度研究了一个双层经济系统,我们称之为马尔可夫交换经济 (MEE)。MEE 涉及一个中央计划者和一组自利的智能体。智能体的目标是形成竞争均衡 (CE),其中每个智能体在每一步都短视地最大化自己的效用。中央计划者的目标是操纵系统以最大化社会福利,社会福利被定义为所有智能体效用的总和。在效用函数和系统动态都未知的环境中,我们建议通过 MARL 的在线和离线变体从数据中找到社会最优策略和 CE。具体而言,我们首先设计一个专门针对 MEE 的新型次优度量,这样最小化这样的度量就可以为计划者和智能体证明全局最优策略。其次,在线设置中,我们提出了一种称为 MOLM 的算法,该算法将探索的乐观原则与子博弈 CE 寻求相结合。我们的算法可以轻松结合用于处理大状态空间的一般函数逼近工具,并实现次线性遗憾。最后,我们根据悲观原则将算法调整为离线设置,并建立次优性的上限。