摘要 - 基于模型的增强学习(RL)由于其样本效率而表现出了巨大的希望,但仍在与长马稀疏的任务中挣扎,尤其是在代理商从固定数据集中学习的离线设置中。我们假设由于缺乏长期计划功能,基于模型的RL代理在这些环境中挣扎,并且在环境的时间抽象模型中进行的计划可以减轻此问题。在本文中,我们做出了两个关键的贡献:1)我们引入了基于离线模型的RL算法IQL-TD-MPC,该算法扩展了模型预测性控制(TD-MPC)的状态时间差异学习(TD-MPC),并使用隐式Q-Gearning(IQL); 2)我们建议将IQL-TD-MPC用作层次设置的经理,并以任何离线离线RL算法作为工人。更具体地说,我们预先训练了一种时间抽象的IQL-TD-MPC管理器,以预测“意图嵌入”,该嵌入方式大致与子目标通过计划。我们表明,通过IQL-TD-MPC经理产生的意图嵌入的增强状态表示,可以显着改善离线脱机RL代理在某些最具挑战性的D4RL基准测试任务上的性能。例如,脱机RL算法AWAC,TD3-BC,DT和CQL均在中和大型抗蚁列任务上获得零或接近零的归一化评估得分,而我们的修改给出了40的平均得分。
1 国家氢能中心应用单位,13500 Puertollano,雷阿尔城,西班牙 2 塞维利亚大学系统工程与自动控制系,41092 塞维利亚,西班牙; asunzafra@us.es 3 IN+ 创新、技术和政策研究中心,里斯本大学高等技术学院(IST)机械工程系,1049-001 里斯本,葡萄牙; carlos.santos.silva@tecnico.ulisboa.pt 4 工艺、材料和太阳能(PROMES-CNRS)实验室,佩皮尼昂大学 Via Domitia,66100 佩皮尼昂,法国; grieu@univ-perp.fr (新加坡); tejaswinee.darure@univ-perp.fr (TD) 5 可再生能源和能源效率部门,国家能源和地质实验室,1649-038 里斯本,葡萄牙; ana.estanqueiro@lneg.pt * 通信地址:felix.garcia@cnh2.es;电话:+34-926-42-06-82
摘要 - 连接和自动化的车辆(CAV)网络中的通信延迟显着影响基于连接的优化协调,增加了碰撞风险和降解系统性能。现有方法受到实时计算挑战,过时的数据,可扩展性约束和管理不确定性的困难的限制。本文提出了一种随机分散的模型预测控制(SDMPC)框架,以通过合并一种新颖的随机近似方法来模拟不确定性,以减轻通信延迟的不利影响。我们的方法提供了对安全限制的紧密概率约束,从而确保了准确的训练有素的预测并改善了协调。仿真结果表明,与在各种通信延迟条件下的常规方法相比,所提出的SDMPC框架减少了平均轨迹偏差,并降低了碰撞风险。这些改进使SDMPC成为大型CAV网络的有效解决方案,从而提高了安全性和效率。
摘要 - 连接和自动化的车辆(CAV)网络中的通信延迟显着影响基于连接的优化协调,增加了碰撞风险和降解系统性能。现有方法受到实时计算挑战,过时的数据,可扩展性约束和管理不确定性的困难的限制。本文提出了一种随机分散的模型预测控制(SDMPC)框架,以通过合并一种新颖的随机近似方法来模拟不确定性,以减轻通信延迟的不利影响。我们的方法提供了对安全限制的紧密概率约束,从而确保了准确的训练有素的预测并改善了协调。仿真结果表明,与在各种通信延迟条件下的常规方法相比,所提出的SDMPC框架减少了平均轨迹偏差,并降低了碰撞风险。这些改进使SDMPC成为大型CAV网络的有效解决方案,从而提高了安全性和效率。
摘要:在本文中,我们描述了一个新的概念框架,该概念框架连接近似动态编程(DP),模型预测控制(MPC)和加固学习(RL)。该框架以两种算法为中心,这些算法在很大程度上是彼此独立的,并通过牛顿方法的强大机制在协同作用中起作用。我们称它们为“线”训练和在线播放算法。名称是从涉及游戏的RL的一些主要成功中借来的;主要示例是最近(2017年)Alphazero程序(下棋,[SHS17],[SSS17])和类似结构化的和早期(1990年代)TD-Gammon程序(扮演Backgammon,[Tes94],[TES95],[TES95],[TEG96,[TEG96]))。在这些游戏上下文中,O效率训练算法是一种教授该程序如何评估位置并在任何给定位置产生良好动作的方法,而在线游戏算法是一种实时对抗人或计算机对手的方法。显着,在线训练和在线比赛之间的协同作用也构成了MPC的基础(以及其他主要的顺序决策问题类别),实际上MPC设计体系结构与Alphazero和TD-Gammon的一种非常相似。这种概念上的见解提供了弥合RL和MPC之间文化差距的工具,并为MPC中的某些基本问题提供了新的启示。这些包括通过推出来增强稳定性,通过使用确定性等效性来处理不确定性,MPC在涉及更改系统参数的自适应控制设置中的弹性以及由牛顿方法所暗示的超线性绩效界限提供的见解。
为了满足可持续能源系统、多样化能源资源和电力市场自由化的需求,全球能源行业正经历分布式能源 (DER) 的大规模渗透。为了最大限度地发挥这些资产的效益,DER 可以聚合在虚拟发电厂 (VPP) 中并作为单一系统运行。在这项工作中,我们考虑一个由连接到高压 (HV) 电网的级联水电站 (CHPS) 聚合并集成连接到中压 (MV) 电网的大量可变可再生能源 (VRES) 组合而形成的 VPP。然后,我们解决了在复杂的技术约束、安全约束和由于故障导致 VPP 资源不可用的情况下,在联合能源和辅助服务市场上实现 VPP 利润最大化的问题。首先,我们提出了一个 VPP 的通用模型。其次,我们提出了一个两级顺序 VPP 能源管理策略,该策略由长期竞价优化和通过经济模型预测控制 (EMPC) 的实时控制组成,两者都接收预测作为输入。模拟采用法国综合公司 Compagnie Nationale du Rhône (CNR) 提供的真实模型和实际预测。与传统参考跟踪 MPC (RTMPC) 相比,EMPC 可将 VPP 利润提高 6%,并在发生故障时增强辅助服务的提供。
1。M. Rokonuzzaman,N。Mohajer,S。Nahavandi和S. Mohamed,“自动驾驶汽车的路径跟踪控制器的审查和性能评估”,IET Intelligent Transport Systems,第1卷。15,否。5,pp。646–670,2021。2。M. Schwenzer,M。Ay,T。Bergs和D. Abel,“模型预测控制的综述:工程学的观点”,《国际高级制造技术杂志》,第1卷。 117,否。 5-6,pp。 1327–1349,2021。 3。 R. Rajamani,“车辆动力学和控制”,2011年。 4。 B. Stellato,G。Banjac,P。Goulart,A。Bemporad和S. Boyd,“ OSQP:用于二次程序的操作员拆分求解器”,《数学编程计算》,第1卷。 12,否。 4,pp。 637–672,2020。M. Schwenzer,M。Ay,T。Bergs和D. Abel,“模型预测控制的综述:工程学的观点”,《国际高级制造技术杂志》,第1卷。117,否。5-6,pp。1327–1349,2021。3。R. Rajamani,“车辆动力学和控制”,2011年。4。B. Stellato,G。Banjac,P。Goulart,A。Bemporad和S. Boyd,“ OSQP:用于二次程序的操作员拆分求解器”,《数学编程计算》,第1卷。12,否。4,pp。637–672,2020。
摘要 - 在本文中,我们提出了一种控制机器人系统的通用方法,该机器人系统与环境建立和破坏。有关参考轨迹的近似值。这些动态使上层计划问题可以理解联系时间和力量,并在线生成全新的接触模式序列。为了获得可靠且快速的数值收敛,我们为这些LCP触点动力学设计了一个结构探索的内点求解器,以及用于跟踪问题的自定义轨迹优化器。我们演示了CI-MPC的实时解决方案率,以及在四足机器人上硬件实验中生成和跟踪非周期行为的能力。我们还表明,控制器可以建模不匹配模型,并且可以通过在模拟中发现和利用各种机器人系统的新接触模式来响应干扰,包括Pushbot,Planar Hopper,Planar hopper,Planar Quadruped和Planar Bip。
对自动移动操纵器的需求是多种应用程序中的几种应用程序的核心,例如精密农业[1],工业安装[2],搜索和救援[3]或人类援助[4]。一般而言,移动操纵器必须同时执行移动基础的导航任务,并为机器人臂进行操纵。必须考虑几个挑战以执行这两个任务。从感知的角度来看,机器人系统必须配备可以检测不同地标并分析周围环境的传感器。此外,有必要确保用于执行任务的地标保留在传感器的视野中。从控制的角度来看,控制方案必须同时处理移动基础和机器人组,以使两个子系统之间的协作并避免惩罚完成另一个任务的动作。最后,有必要将机器人臂的控制与移动基础的位移进行协调,以避免机器人系统通过延伸的臂导航的情况,从而在末端效果下导致显着振动,并增加与外部元素奇异构型和碰撞的风险。与任何机器人系统一样,有许多控制移动操纵器的方法。广泛使用的解决方案包括在欧几里得空间中表达任务。在这种情况下,机器人使用板载传感器来估计系统配置。LIDAR型传感器提供几何数据,从而可以准确估计,但不能提供对环境的先进感知。基于视觉的传感器提供丰富的环境信息,但姿势估计对错误高度敏感。使用摄像机时,另一种广泛使用的解决方案