更具体地说,我们解决了 QA 的局限性,QA 并非为解决许多经济模型核心的动态规划问题而设计的。具体来说,QA 本身不允许随时间推移或跨多个目标函数进行迭代,并且受到量子到经典瓶颈的影响,这严重限制了可以读出多少经典信息作为问题的解决方案。我们的方法克服了这些限制,可用于恢复宏观经济学、产业组织、博弈论和劳动经济学问题的政策和价值函数。为了评估我们的方法,我们在 QA 上求解实际商业周期 (RBC) 模型,并将其性能与 Aruoba 和 Fern´andez-Villaverde ( 2015 )(以下简称 AFV )中的基准结果进行比较。求解 RBC 模型还使我们能够展示如何以可以在 QA 上求解的方式制定一个众所周知的经济模型。即使受到现有量子技术的限制,我们仍然可以在 AFV 中使用 C++ 以 VFI 解决方案计算时间的 3% 或组合计算时间的 0.66% 来解决 QA 上的 RBC 模型
更具体地说,我们解决了 QA 的局限性,QA 并非为解决许多经济模型核心的动态规划问题而设计的。具体来说,QA 本身不允许随时间推移或跨多个目标函数进行迭代,并且受到量子到经典瓶颈的影响,这严重限制了可以读出多少经典信息作为问题的解决方案。我们的方法克服了这些限制,可用于恢复宏观经济学、产业组织、博弈论和劳动经济学问题的政策和价值函数。为了评估我们的方法,我们在 QA 上求解实际商业周期 (RBC) 模型,并将其性能与 Aruoba 和 Fern´andez-Villaverde ( 2015 )(以下简称 AFV )中的基准结果进行比较。求解 RBC 模型还使我们能够展示如何以可以在 QA 上求解的方式制定一个众所周知的经济模型。即使受到现有量子技术的限制,我们仍然可以在 AFV 中使用 C++ 以 VFI 解决方案计算时间的 3% 或组合计算时间的 0.66% 来解决 QA 上的 RBC 模型
摘要 - 在本文中,考虑了非线性非线性系统的最佳控制问题。提出了一个非线性干扰观察者(NDO)来测量系统中存在的不存在的不存在。干扰与控制信号(所谓的不匹配的干扰)的干扰很难直接在控制通道内拒绝。为了克服挑战,通过衰减其对输出渠道的影响,实施了广义的基于观察者的补偿器来解决不确定性补偿问题。实时通过增加输出跟踪错误来增强系统状态,我们开发了一个复合参与者批判性的加固学习(RL)方案,以近似最佳控制策略以及与赔偿系统有关的理想价值函数,通过求解汉密尔顿 - 雅各布蒂 - 雅各布 - 雅各布·贝尔曼(HJB)方程。通过使用系统的已知模型的记录数据在本文中应用,以通过取消探测信号的影响来增强系统的鲁棒性。仿真结果证明了所提出的方案的有效性,为二阶模型中的输出跟踪问题提供了最佳解决方案,这是不匹配的干扰。
摘要 - Q学习已成为增强学习工具包的重要组成部分,因为它在1980年代的克里斯·沃特金斯(Chris Watkins)论文中引入了。在原始表格公式中,目标是精确地计算出折扣成本优化方程的解决方案,从而获得马尔可夫决策过程的最佳策略。今天的目标更为适中:在规定的功能类中获得近似解决方案。标准算法基于与1980年代公式相同的体系结构,其目的是找到一个求解所谓的投影贝尔曼方程的价值函数近似。虽然增强学习一直是一个活跃的研究领域,但几乎没有理论提供这些Q学习算法的融合条件,甚至存在该方程的解决方案。本文的目的是表明,只要函数类是线性的,并且用于训练的输入是ε-绿色策略的一种形式,并且具有足够小的ε。此外,在这些条件下,就界限参数估计而言,Q学习算法是稳定的。融合仍然是众多研究主题之一。
价值函数分解已成为在培训和分散执行范式下进行合作多代理增强学习的普遍方法。这些算法中的许多算法通过使用代理实用程序的单调混合函数来分配最佳的关节作用功能,以确保分散决策的关节和局部选择之间的相干性。尽管如此,利用单调混合函数也会引起表示局限性,并且在单调函数类别上找到无约束的混合函数的最佳投影仍然是一个开放的问题。在本文中,我们提出了QPRO,该QPRO对价值函数分解的最佳投影问题置于遗憾的是对不同过渡的投影权重的最小化。可以使用Lagrangian乘数方法放松和解决此优化问题,以遵守封闭形式的最佳投影权重,在该方法中,我们通过最大程度地减少预期收益的遗憾政策,从而缩小最佳和受限单调混合功能之间的差距,从而增强单调值函数分支。我们的实验证明了我们方法的有效性,表明在具有非单调价值函数的环境中的性能提高了。
在本文中,我们考虑了在共同手术多代理增强学习(MARL)中学习独立公平政策的问题。目的是同时设计多个政策,以优化公平性的福利功能。为了实现这一目标,我们提出了一种新颖的公平性近端政策优化(FAPPO)算法,该算法分别学习了所有代理商的个人政策,并优化了福利功能以确保它们之间的公平性,与优化折扣奖励相反。所提出的方法显示出在独立学习环境中学习公平策略,每个代理都会估算其本地价值函数。当允许跨性别的通信时,我们通过合并一种自我注意力的机制来进一步引入基于注意力的FAPPO(AT-FAPPO)变体。此变体使代理商能够通过利用在培训期间共享相关信息的能力来传达和协调其行为,从而导致更公平的事件。为了显示提出方法的有效性,我们在两个环境中进行实验,并表明我们的方法在效率和公平方面都优于先前的方法。
我们从时间角度研究了加强学习(RL)政策的解释性,重点是与个人行动相关的未来结果的顺序。在RL中,值函数压缩有关跨多个传统和无限视野收集的奖励的信息,从而允许一种紧凑的知识表示形式。但是,这种压缩掩盖了顺序决策中固有的时间细节,这是对解释性的关键挑战。我们提出了时间政策构成(TPD),这是一种新颖的解释性方法,该方法从他们的预期未来结果(EFO)方面解释了单个RL行动。这些解释将代理的价值函数分解为EFO序列,每个时间都逐步发展到感兴趣的预测范围,从而揭示了何时发生特定结果的见解。我们利用固定性时间差异学习来设计一种用于学习最佳和次优的动作的EFO的非政策方法,从而实现了由EFO组成的对比解释。我们的实验表明,TPD产生了准确的解释,即(i)阐明该政策的未来战略和预期的轨迹,对给定的行动进行了预期的轨迹,以及(ii)提高对奖励组成的理解,促进对奖励功能的微调,以与人类的期望保持一致。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
路径特征是有效捕获路径的分析和几何特性的路径的强大表示,具有有用的代数特性,包括通过张量产品快速串联路径的特性。签名最近在用于时间序列分析的机器学习问题中广泛采用。在这项工作中,我们建立了通常用于最佳控制和吸引路径签名属性的价值函数之间的连接。这些连接激发了我们的新颖控制框架,具有签名转换,从而有效地将Bellman方程推广到轨迹空间。我们分析框架的属性和优势,称为签名控制。特别是我们证明(i)它自然可以处理不同/适应性的时间步骤; (ii)它比价值功能更新更有效地传播更高级别的信息; (iii)对于长期推出而言,动态系统错误指定是可靠的。作为我们框架的特定情况,我们设计了一种模型预测控制方法。此方法概括了整体控制,适合未知干扰的问题。在模拟中测试了所提出的算法,其中包括可区分的物理模型,包括典型的控制和机器人技术任务,例如点质量,ant模型的曲线跟随以及机器人操纵器。关键字:决策,路径签名,钟声方程,积分控制,模型预测控制,机器人技术