摘要:本文提出了一种新颖的需求侧管理 (DSM) 系统,旨在使用模型预测控制 (MPC) 优化公共站的电动汽车 (EV) 充电。该系统可根据实时电网状况、电价和用户偏好进行调整,为智能城市基础设施中的能源分配提供动态方法。这项研究的重点是减少峰值负荷和提高电网稳定性,同时最大限度地降低最终用户的充电成本。在各种情况下进行了模拟,证明了所提出的系统在缓解峰值需求和优化能源使用方面的有效性。此外,该系统的灵活性使得能够调整充电时间表以满足电网要求和用户需求,使其成为智能城市发展的可扩展解决方案。然而,目前的局限性包括假设统一关税和缺乏可再生能源考虑,这两者在实际应用中都至关重要。未来的研究将侧重于解决这些问题、提高可扩展性和整合可再生能源。所提出的框架代表了向城市环境中的高效能源管理迈出的重要一步,有助于节约成本和实现环境可持续性。
抽象的稀疏奖励和样本效率是增强学习领域的开放研究领域。在考虑对机器人技术和其他网络物理系统的增强学习应用时,这些问题尤其重要。之所以如此,是因为在这些领域中,许多任务都是基于目标的,并且自然而然地表达了二进制成功和失败,动作空间较大且连续,并且与环境的实际相互作用受到限制。在这项工作中,我们提出了深层的价值和预测模型控制(DVPMC),这是一种基于模型的预测增强学习算法,用于连续控制,该算法使用系统识别,值函数近似和基于采样的优化对选择动作。该算法是根据密集的奖励和稀疏奖励任务进行评估的。我们表明,它可以使预测控制方法的性能与密集的奖励问题相匹配,并且在样本效率和性能的指标上,在稀疏奖励任务上优于模型和基于模型的学习算法。我们验证了使用DVPMC训练在仿真的机器人上培训的代理商的性能。可以在此处找到实验的视频:https://youtu.be/ 0q274kcfn4c。
摘要 - 锂离子电池是复杂的系统,需要合适的管理策略才能正常工作,实现快速充电,减轻老化机制并确保安全。在不同的基于模型的充电策略中,使用预测控制已显示出令人鼓舞的结果,因为它可以处理受安全限制的非线性系统。然而,尽管文献中已经提出了许多实施,但很少关注其实际可行性,这受到在线所需的高计算成本的限制。在本文中,我们首次在电池字段中利用了通过使用深神经网络获得的预测控制的近似。提议的解决方案适用于实时电池充电,因为大多数计算负担都脱机解决。结果突出了提出的方法在近似标准模型预测控制解决方案中的有效性。
摘要:在本文中,我们描述了一个新的概念框架,该概念框架连接近似动态编程(DP),模型预测控制(MPC)和加固学习(RL)。该框架以两种算法为中心,这些算法在很大程度上是彼此独立的,并通过牛顿方法的强大机制在协同作用中起作用。我们称它们为“线”训练和在线播放算法。名称是从涉及游戏的RL的一些主要成功中借来的;主要示例是最近(2017年)Alphazero程序(下棋,[SHS17],[SSS17])和类似结构化的和早期(1990年代)TD-Gammon程序(扮演Backgammon,[Tes94],[TES95],[TES95],[TEG96,[TEG96]))。在这些游戏上下文中,O效率训练算法是一种教授该程序如何评估位置并在任何给定位置产生良好动作的方法,而在线游戏算法是一种实时对抗人或计算机对手的方法。显着,在线训练和在线比赛之间的协同作用也构成了MPC的基础(以及其他主要的顺序决策问题类别),实际上MPC设计体系结构与Alphazero和TD-Gammon的一种非常相似。这种概念上的见解提供了弥合RL和MPC之间文化差距的工具,并为MPC中的某些基本问题提供了新的启示。这些包括通过推出来增强稳定性,通过使用确定性等效性来处理不确定性,MPC在涉及更改系统参数的自适应控制设置中的弹性以及由牛顿方法所暗示的超线性绩效界限提供的见解。
摘要 - 本文介绍了基于数据的建模和最佳区域供暖系统(DHSS)。此类大规模网络系统的物理模型受复杂的非线性方程的控制,需要大量参数,从而导致其操作的潜在计算问题。因此提出了一种新颖的方法,利用操作数据和可用的物理知识,以获得准确且计算有效的DHSS动态模型。拟议的想法包括利用多个反复构建的神经网络(RNN)以及将DHS网络的物理拓扑嵌入其互连中。在标准RNN方法方面,所得的模型方法(表示为物理知识的RNN(PI-RNN)),即使利用了减少尺寸的模型,也可以实现更快的训练程序和更高的建模准确性。开发的PI-RNN建模技术为设计非线性模型预测控制(NMPC)调节策略铺平了道路,从而使计算时间有限,以最小化生产成本,提高系统效率并提高系统效率并尊重整个DHS网络的操作约束。在文献中引用的DHS基准的模拟中测试了所提出的方法,从建模和控制角度显示了有希望的结果。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
摘要 - 基于模型的增强学习(RL)由于其样本效率而表现出了巨大的希望,但仍在与长马稀疏的任务中挣扎,尤其是在代理商从固定数据集中学习的离线设置中。我们假设由于缺乏长期计划功能,基于模型的RL代理在这些环境中挣扎,并且在环境的时间抽象模型中进行的计划可以减轻此问题。在本文中,我们做出了两个关键的贡献:1)我们引入了基于离线模型的RL算法IQL-TD-MPC,该算法扩展了模型预测性控制(TD-MPC)的状态时间差异学习(TD-MPC),并使用隐式Q-Gearning(IQL); 2)我们建议将IQL-TD-MPC用作层次设置的经理,并以任何离线离线RL算法作为工人。更具体地说,我们预先训练了一种时间抽象的IQL-TD-MPC管理器,以预测“意图嵌入”,该嵌入方式大致与子目标通过计划。我们表明,通过IQL-TD-MPC经理产生的意图嵌入的增强状态表示,可以显着改善离线脱机RL代理在某些最具挑战性的D4RL基准测试任务上的性能。例如,脱机RL算法AWAC,TD3-BC,DT和CQL均在中和大型抗蚁列任务上获得零或接近零的归一化评估得分,而我们的修改给出了40的平均得分。
摘要:本文介绍了基于管子的模型预测控制(MPC),用于自主铰接式车辆的路径和速度跟踪。这项研究的目标平台是具有不可轴轴的自主铰接式车辆。因此,铰接角和车轮扭矩输入由基于管的MPC确定。所提出的MPC旨在实现两个目标:最大程度地减少跟踪误差并增强对干扰的鲁棒性。此外,自动铰接式车辆的横向稳定性被认为反映了其动态特性。使用局部线性化制定了MPC的车辆模型,以最大程度地减少建模误差。参考状态是使用基于线性二次调节器的虚拟控制器确定的,以提供MPC求解器的最佳参考。通过在噪声注入传感器信号的基础算法的模拟研究中评估了所提出的算法。仿真结果表明,与基础算法相比,所提出的算法达到了最小的路径跟踪误差。此外,提出的算法对多个信号表现出对外部噪声的鲁棒性。
1。M. Rokonuzzaman,N。Mohajer,S。Nahavandi和S. Mohamed,“自动驾驶汽车的路径跟踪控制器的审查和性能评估”,IET Intelligent Transport Systems,第1卷。15,否。5,pp。646–670,2021。2。M. Schwenzer,M。Ay,T。Bergs和D. Abel,“模型预测控制的综述:工程学的观点”,《国际高级制造技术杂志》,第1卷。 117,否。 5-6,pp。 1327–1349,2021。 3。 R. Rajamani,“车辆动力学和控制”,2011年。 4。 B. Stellato,G。Banjac,P。Goulart,A。Bemporad和S. Boyd,“ OSQP:用于二次程序的操作员拆分求解器”,《数学编程计算》,第1卷。 12,否。 4,pp。 637–672,2020。M. Schwenzer,M。Ay,T。Bergs和D. Abel,“模型预测控制的综述:工程学的观点”,《国际高级制造技术杂志》,第1卷。117,否。5-6,pp。1327–1349,2021。3。R. Rajamani,“车辆动力学和控制”,2011年。4。B. Stellato,G。Banjac,P。Goulart,A。Bemporad和S. Boyd,“ OSQP:用于二次程序的操作员拆分求解器”,《数学编程计算》,第1卷。12,否。4,pp。637–672,2020。
摘要 - 在恶劣条件下在复杂情况下驾驶车辆是自动驾驶汽车(AV)的最大挑战。为了解决这个问题,我们在复杂的场景中使用前主动转向系统提出了层次运动计划和稳健的控制策略,并在各种湿滑的道路粘附系数中,同时考虑车辆不确定的参数。通过智能驾驶员模型(IDM)考虑并以车辆跟随模型的形式考虑人类车辆(HVS)的行为(HVS)。然后,在上层中,运动计划者首先使用人工电位场(APF)算法来生成最佳轨迹,例如,路标,边界和静态/动态障碍物,例如道路标记,边界和静态/动态障碍。为了在下层跟踪生成的最佳trajectory,通过应用线性矩阵不等式(LMI)优化方法,使用线性参数变化(LPV)系统来实现离线约束的输出反馈鲁棒模型预测性控制(RMPC),以确保对模型参数的鲁棒性不适合模型不限制。更重要的是,通过增强系统模型,我们提出的方法称为离线RMPC,与三种现有的RMPC方法相比,具有出色的效率,例如,偏置式挡板offline RMPC,在线rmpc,在线rmpc和离线rmpc无需增强模型(离线rmpc w/o am),在不线rmpc w/o am)(均改进了计算时间),并改进了计算时间和添加时间。