这项研究提出了一个基于深度强化学习(DRL)的智能自适应控制框架。动态干扰场景下的比较实验表明,与传统的模型参考自适应控制(MRAC)相比,提出的框架将系统稳定时间降低了42%(*P*<0.01),并将控制精度提高1.8个数量级(RMSE:0.08 vs. 1.45)。通过将物理信息的神经网络(PINN)与元强化学习(Meta-RL)整合在一起,混合体系结构解决了常规方法的关键局限性,例如强大的模型依赖性和实时性能不足。在工业机器人臂轨迹跟踪和智能电网频率调节方案中得到验证,该方法的表现优于关键指标的传统方法(平均改进> 35%)。用于边缘计算的轻量级部署方案可在嵌入式设备上实现实时响应(<5ms),为复杂动态系统的智能控制提供了理论和技术基础。
摘要 - 由于独立的平台动作以及由此产生的多种惯性力量,机器人在机器人的六度移动平台(例如地铁,公共汽车,飞机和游艇)等六度移动平台上面临平衡挑战。为了减轻这些挑战,我们提出了基于学习的运动平台(LAS-MP)的主动稳定,具有自动平衡政策和系统状态估计器。策略会根据平台的运动自适应地调整机器人的姿势。估计器基于原则传感器数据推断机器人和平台状态。对于各种平台运动的系统培训方案,我们介绍了平台轨迹生成和调度方法。我们的评估表明,与三个基线相比,多个指标的卓越平衡性能。此外,我们对LAS-MP进行了详细分析,包括消融研究和评估估计器,以验证每个组件的有效性。
摘要 - 最近,已经利用了在线优化方法来开发在线非策略控制框架,该框架能够在存在非主张的对抗性干扰的情况下学习在线梯度扰动控制器。有趣的是,在未知干扰存在下使用在线优化并不是一个全新的想法,并且类似的算法框架称为回顾性成本自适应控制(RCAC)已经出现在2000年代的对照文献中。在这封信中,我们介绍了在线非障碍控制与RCAC之间的联系,并讨论了这两种方法的不同优势:即,RCAC能够通过使用目标模型来稳定未知的Unstable植物,而在线非稳定控制则可以证明,在稳定政策的情况下,在线非稳定控制享受了接近最佳的遗憾界限。我们进一步构成了这两种方法的整合。我们希望我们的见解将有助于开发补充两种方法的新算法。
本文对电动汽车(EV)系统的自适应控制机制进行了深入的分析,重点介绍了控制车辆动力学和功能的各种控制单元。它提供了有关电动汽车中基本控制组件的全面概述,讨论了它们的功能,集成和对整体车辆性能的影响。该研究深入研究了这些系统中采用的自适应控制策略,评估了它们在响应不同驾驶环境中的有效性。通过本调查,本文研究了自适应控制的不同方法,突出了它们的优势和局限性。此外,该研究还探讨了通过高级控制技术提高EV性能和安全性的潜力,这些因素考虑了能源效率,稳定性和驾驶员经验等因素。本文旨在为电动汽车中自适应控制的当前状态提供宝贵的见解,并提出未来的研发方向。
摘要 - 动态快速适应是使动物及时,正确调整其运动的基本帽质体之一,从而对不可预测的变化做出了反应。在不预测的环境中工作时,这种功能对于四倍的机器人也是必不可少的。虽然增强学习(RL)在运动控制方面取得了重大进展,但对模型不确定性的快速适应仍然是一个挑战。在本文中,我们试图确定运动RL政策背后的控制机制,我们从中提出了一种新的基于RL的快速在线自适应控制(RL2AC)算法,以互补地将RL策略和自适应控制结合在一起。RL2AC以1000Hz的频率运行,而无需使用RL同时训练。它具有针对外部干扰或SIM真实间隙的强大能力,从而实现了强大的运动,这是通过从新颖的自适应控制器中得出的适当扭矩补偿来实现的。各种模拟和实验证明了提出的RL2AC针对重载重的有效性,干扰作用在一条腿上,侧向扭矩,SIM卡到真实的间隙和各种地形。
最近的强化学习方法表明,爆炸性政策的强大能力可解决连续控制基准。潜在的粗糙动作空间离散通常会产生有利的探索特征,而在与最佳控制理论一致的情况下,最终绩效并不明显地遭受损失。在机器人技术应用中,平滑控制信号通常是降低系统磨损并提高能源效率的首选,而通过行动成本正规化可能会损害探索。我们的工作旨在通过将离散的动作空间从粗糙控制到精细的控制分辨率来弥合这一绩效差距。我们利用脱钩Q学习的最新结果来扩展我们对高维作用空间的方法,直至DIM(A)= 38。我们的工作表明,自适应控制与价值分解相结合产生了简单的仅批评算法,这使得能够在连续的控制任务上具有出乎意料的强劲性能。关键字:连续控制; Q学习;价值分解;增长分辨率
摘要 - 模型引用自适应系统是指引导植物追踪所需参考轨迹的技术的共同体。通常采用基于Lyapunov,滑动表面和后退的理论的方法来建议自适应控制策略。所产生的解决方案通常是由参考模型的复杂性和派生的控制策略的复杂性来挑战。此外,控制策略对过程动力学和参考动力学模型的明确依赖性可能会导致面对不确定或未知动态的效率降低效率。此处为自主系统开发了一种模型 - 参考自适应解决方案,该解决方案解决了基于错误的结构的汉密尔顿 - 雅各比 - 贝尔曼方程。所提出的方法用整体的时间差方程描述了该过程,并使用积分加强学习机制解决了该过程。这是实时完成的,而无需知道或使用控制策略中的过程或参考模型的动态。采用一类飞机来验证拟议的技术。索引术语 - 模型参考控制,整体钟声方程,积分加强学习,自适应批评家
。cc-by-nc-nd 4.0国际许可证(未获得同行评审证书)获得的是作者/资助者,他已授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权所有,该版本发布于2021年5月25日。 https://doi.org/10.1101/2021.05.25.25.445577 doi:biorxiv preprint
摘要:直接能量沉积 (DED) 需要闭环控制来稳定工艺并提高制造质量。大多数现有的 DED 控制器都需要通过实验进行系统辨识以获得工厂模型或与层相关的自适应控制规则,而此类过程繁琐且耗时。本文提出了一种新颖的数据驱动自适应控制策略,通过熔池尺寸反馈来调整激光电压。开发了一种多任务控制器架构,包含一个自动调节单元,该单元可根据 DED 工艺数据自动优化控制器参数。实验验证表明,受控样品的几何精度和熔池一致性有所改善。所提出的控制器的主要优点是它可以适应具有不同零件形状、材料、刀具路径和工艺参数的 DED 工艺而无需进行调整。即使工艺条件发生变化也不需要进行系统辨识,这减少了最终用户的控制器实施时间和成本。
摘要:激光定向能量沉积(LDED)是金属增材制造的重要组成部分之一,具有成型速度快、成型体积大、适合零件修复等特点。LDED以激光束为热源,通过快速加热、熔化、凝固、冷却等工艺,逐层制造零部件。然而,由于热循环和加工环境复杂,LDED生产零部件的沉积质量和重复性较差,阻碍了该技术的推广。自适应控制技术(ACT)一直被认为是解决该问题的有效且潜在的方法。随着监测设备和数据处理技术的发展,许多研究集中在LDED上,建立了工艺参数、工艺特征和产品质量之间的关系,促进了ACT的快速发展。本文对LDED的ACT中存在的问题进行了回顾和讨论。© 2020 光学仪器工程师学会(SPIE)[DOI: 10.1117/1.OE.59.7.070901 ]