当转换和奖励函数未知时,马尔可夫决策过程是现代强化学习领域的基础数学形式化。我们推导出一个伪布尔成本函数,它相当于离散、有限、折现马尔可夫决策过程的 K 自旋汉密尔顿表示,具有无限的视界。这个 K 自旋汉密尔顿提供了一个起点,可以使用启发式量子算法(例如绝热量子退火和近期量子硬件上的量子近似优化算法)来求解最优策略。在证明我们的汉密尔顿的变分最小化等同于贝尔曼最优条件时,我们建立了与经典场论的有趣类比。除了通过模拟和量子退火与经典 Q 学习进行概念验证计算以证实我们的公式外,我们还分析了在量子硬件上解决汉密尔顿所需的物理资源的扩展。
Bertsekas教授因其著作《神经动力学节目》(Neuro-Dynamic Programming)的界面和科学之间的界面中的卓越奖而获得了Informs奖,该奖项(与John Tsitsiklis合着),2001年的AACC John R. Ragazzini教育奖,2009年的AACC RICH奖,2014年AAC批准了2014年的ACC奖。 Khachiyan优化终身成就奖,2015年MOS/Siam George B. Dantzig奖和2022年IEEE Control Systems奖。2018年,他与他的合着者约翰·蒂西克利(John Tsitsiklis)分享了2018年,为约翰·冯·诺伊曼(John von Neumann)理论奖提供了研究专着“平行和分布式计算”和“神经动态程序”的贡献。贝特塞卡(Bertsekas)教授于2001年当选为美国国家工程学院的“对优化/控制理论的基础研究,实践和教育的开创性贡献”。
Bertsekas教授因其著作《神经动力学节目》(Neuro-Dynamic Programming)的界面和科学之间的界面中的卓越奖而获得了Informs奖,该奖项(与John Tsitsiklis合着),2001年的AACC John R. Ragazzini教育奖,2009年的AACC RICH奖,2014年AAC批准了2014年的ACC奖。 Khachiyan优化终身成就奖,2015年MOS/Siam George B. Dantzig奖和2022年IEEE Control Systems奖。2018年,他与他的合着者约翰·蒂西克利(John Tsitsiklis)分享了2018年,为约翰·冯·诺伊曼(John von Neumann)理论奖提供了研究专着“平行和分布式计算”和“神经动态程序”的贡献。贝特塞卡(Bertsekas)教授于2001年当选为美国工程学院的“对优化/控制理论的基础研究,实践和教育,尤其是其在数据通信网络中的应用”。
摘要 - 模型引用自适应系统是指引导植物追踪所需参考轨迹的技术的共同体。通常采用基于Lyapunov,滑动表面和后退的理论的方法来建议自适应控制策略。所产生的解决方案通常是由参考模型的复杂性和派生的控制策略的复杂性来挑战。此外,控制策略对过程动力学和参考动力学模型的明确依赖性可能会导致面对不确定或未知动态的效率降低效率。此处为自主系统开发了一种模型 - 参考自适应解决方案,该解决方案解决了基于错误的结构的汉密尔顿 - 雅各比 - 贝尔曼方程。所提出的方法用整体的时间差方程描述了该过程,并使用积分加强学习机制解决了该过程。这是实时完成的,而无需知道或使用控制策略中的过程或参考模型的动态。采用一类飞机来验证拟议的技术。索引术语 - 模型参考控制,整体钟声方程,积分加强学习,自适应批评家
摘要。对智能车辆的轨迹进行建模是流量模拟系统的重要组成部分。但是,这种轨迹预定符通常受过训练,以模仿人类驾驶员的运动。模仿模型通常没有捕获数据分配长尾端的安全关键事件,尤其是在涉及多个驱动程序的综合环境下。在本文中,我们提出了一种游戏理论的观点,以通过对通用马尔可夫游戏中的车辆的竞争相互作用进行建模,并以相关的平衡来表征这些挑战的竞争。为了实现这一目标,我们为预测自动驾驶场景的环境动态的生成性世界模型提供了预算。基于这个世界模型,我们通过将乐观的Bellman更新和磁性镜下降纳入多代理增强学习(MARL)算法的目标函数来探测用于识别粗相关平衡(CCE)的动作预测因子。我们进行了广泛的实验,以证明我们的算法在有效地关闭CCE间隙并在竞争性自动驾驶环境下产生有意义的轨迹方面优于其他基准。该代码可在以下网址提供:https://github.com/qiaoguanren/marl-cce。
Bellman在1950年代提出的动态编程(DP)的思想是最重要的算法技术之一。并行,许多基本和顺序简单的问题变得更具挑战性,并且对(几乎)工作有效的解决方案开放(即,与最佳顺序解决方案相比,最多是polygarogarithmic因子的工作)。实际上,顺序的DP al-gorithms采用许多高级优化,例如决策单调性或特殊数据结构,并且比直接解决方案获得更好的工作。许多这样的优化是不依次的,这为并行算法带来了额外的挑战,以实现相同的工作。本文的目的是通过平行经典,高度优化和实用的顺序算法来实现(几乎)(几乎)工作效率的ALLEL DP算法。我们显示了一个名为“ Cordon算法”的通用框架,用于并行DP算法,并使用它来解决一些经典问题。我们选择的问题包括最长增加的子序列(LIS),最长的常见子序列(LCS),凸/凹面最小重量亚序列(LWS),最佳字母树(OAT)等。我们展示了如何使用Cordon算法来实现与顺序算法相同的优化水平,并获得良好的并行性。我们的许多算法在概念上都很简单,我们将一些实验结果作为概念证明。
摘要:在机器人文献中,最佳跟踪问题通过使用各种鲁棒和自适应控制方法来解决。然而,这些方案与实施限制有关,例如在具有完整或部分基于模型的控制结构的不确定动态环境中的适用性、离散时间环境中的复杂性和完整性以及复杂耦合动态系统中的可扩展性。开发了一种在线自适应学习机制来解决上述限制,并为跟踪控制类问题提供通用解决方案平台。该方案使用同时线性反馈控制策略最小化跟踪误差并优化整体动态行为。采用基于值迭代过程的强化学习方法来求解底层贝尔曼最优方程。生成的控制策略以交互方式实时更新,而无需任何有关底层系统动态的信息。采用自适应评论家的方法来实时近似最佳求解值函数和相关控制策略。在模拟中说明了所提出的自适应跟踪机制在不确定的气动学习环境下控制柔性翼飞机的作用。
摘要:在机器人文献中,最佳跟踪问题通过使用各种鲁棒和自适应控制方法来解决。然而,这些方案与实施限制有关,例如在具有完整或部分基于模型的控制结构的不确定动态环境中的适用性、离散时间环境中的复杂性和完整性以及复杂耦合动态系统中的可扩展性。开发了一种在线自适应学习机制来解决上述限制,并为跟踪控制类问题提供通用的解决方案平台。该方案使用同时线性反馈控制策略最小化跟踪误差并优化整体动态行为。采用基于值迭代过程的强化学习方法来求解底层贝尔曼最优方程。生成的控制策略以交互方式实时更新,而无需任何有关底层系统动态的信息。采用自适应评论家的方法实时逼近最优解值函数和相关控制策略。在仿真中说明了所提出的自适应跟踪机制,以在不确定的气动学习环境下控制柔性翼飞机。
残局研究长期以来一直是测试人类创造力和智力的工具。我们发现它们也可以作为测试机器能力的工具。两个领先的国际象棋引擎 Stockfish 和 Leela Chess Zero (LCZero) 在游戏过程中采用了截然不同的方法。我们使用 20 世纪 70 年代末著名的残局研究 Plaskett's Puzzle 来比较这两个引擎。我们的实验表明 Stockfish 在谜题上的表现优于 LCZero。我们研究了引擎之间的算法差异,并以我们的观察结果为基础仔细解释测试结果。受人类解决国际象棋问题的方式启发,我们询问机器是否可以拥有某种形式的想象力。在理论方面,我们描述了如何应用贝尔曼方程来优化获胜概率。最后,我们讨论了我们的工作对人工智能 (AI) 和通用人工智能 (AGI) 的影响,并提出了未来研究的可能途径。
规划很有用。它让人们采取具有可取的长期后果的行动。但是,规划很难。它需要思考后果,这会消耗有限的计算和认知资源。因此,人们应该规划他们的行动,但他们也应该聪明地部署用于规划行动的资源。换句话说,人们也应该“规划他们的计划”。在这里,我们将规划的这一方面表述为元推理问题,并将其形式化为一个递归贝尔曼目标,该目标结合了任务奖励和信息论规划成本。我们的解释对人们应该如何根据任务的整体结构进行规划和元规划做出了定量预测,我们在两个有人类参与者的实验中对此进行了测试。我们发现,人们的反应时间反映了信息处理的计划使用,这与我们的解释一致。这种规划计划的表述为人类和机器中的分层规划、状态抽象和认知控制的功能提供了新的见解。