在这份简短的报告中,我们介绍了我们的团队实施的强化学习(RL)[1]来应对在IROS 2024 1举行的第二次AI奥运会竞赛的模拟阶段。The algorithm we employed, Monte- Carlo Probabilistic Inference for Learning COntrol (MC- PILCO) [2], is a Model-Based (MB) RL algorithm that proved remarkably data-efficient in several low-dimensional benchmarks, such as a cart-pole, a ball & plate, and a Furuta pendulum, both in simulation and real setups.mc-pilco也是赢得本次比赛第一版的算法[3]。mc-pilco是MB策略梯度算法的一部分。它通过与系统进行交互来利用收集的数据来得出系统动力学模型并通过模拟系统来优化策略,而不是直接在系统数据上优化策略。应用于物理系统时,这种方法可以比无模型(MF)解决方案高表现和数据效率高。本文的组织如下:第二部分介绍了竞争的目标和设置。第三部分介绍了MC-PILCO算法。 第四节报告了已经执行的实验,最后V节结束了论文。第三部分介绍了MC-PILCO算法。第四节报告了已经执行的实验,最后V节结束了论文。第四节报告了已经执行的实验,最后V节结束了论文。
本研究解决了整合可再生能源(尤其是风能)时网格稳定性的挑战。它专注于使用高级策略(例如故障电流限制器和深度学习),增强双喂养发电机(DFIG)风能系统中的瞬态稳定性。该研究包括对故障场景,模拟和解决方案评估的彻底分析,强调了维持可再生能源网格稳定性的关键需求。随着风能需求的增加,优化系统性能至关重要。许多风力涡轮机依靠DFIG,需要稳健的故障乘车。引入了一个被动故障电流限制器,以增强DFIG系统瞬态稳定性。这个没有主动控制器的限制器具有内在的弹性。该研究引入了一种新型算法,以计算最佳断层电流限制性,并在参考水平的±10%以内保持电压。瞬态稳定性通过涉及对称和不对称断层的模拟进行评估,并结合了深度学习。MATLAB/SIMULINK证实了所提出的限制器和算法在提高基于DFIG的风能系统的瞬时稳定性方面的功效。该研究强调了故障电流限制器和深度学习在无缝将可再生能源整合到电网中的作用。
摘要 - 深处增强学习(DRL)是一种强大的机器学习范式,用于生成控制自主系统的代理。但是,DRL代理的“黑匣子”性质限制了其在现实世界中关键应用程序中的部署。为代理行为提供强大保证的一种有前途的方法是使用神经Lyapunov屏障(NLB)证书,该证书是通过系统中学的功能,其属性间接地暗示着代理的行为。但是,基于NLB的证书通常很难学习,甚至更难验证,尤其是对于复杂的系统。在这项工作中,我们提出了一种新颖的方法,用于培训和验证基于NLB的离散时间系统证书。具体来说,我们引入了一种证书组成的技术,该技术通过策略性地设计一系列证书来简化高度复杂系统的验证。当通过神经网络验证引擎共同验证时,这些证书提供了正式的保证,即DRL代理都实现了其目标并避免了不安全的行为。此外,我们引入了一种用于证书过滤的技术,该技术大大简化了生成正式验证的证书的过程。我们通过案例研究证明了我们的方法的优点,该案例研究为DRL控制的航天器提供了安全性和livesice保证。
有效控制线性高斯量子 (LGQ) 系统是基础量子理论研究和现代量子技术发展中的重要任务。在此,我们提出了一种基于梯度下降算法的通用量子学习控制方法,用于最佳控制 LGQ 系统。我们的方法利用完全描述 LGQ 系统量子态的一阶和二阶矩,灵活地设计用于不同任务的损失函数。我们使用这种方法展示了深度光机械冷却和大型光机械纠缠。我们的方法能够在短时间内对机械谐振器进行快速和深度基态冷却,超越了连续波驱动强耦合机制中边带冷却的限制。此外,即使热声子占有率达到一百,光机械纠缠也可以非常快地产生,并且超过相应稳态纠缠的几倍。这项工作不仅拓宽了量子学习控制的应用范围,而且为 LGQ 系统的最优控制开辟了一条途径。
摘要在这项工作中提出了一种强大的无模型自适应迭代学习控制(R-MFAILC)算法,以解决横向控制自动驾驶总线的问题。首先,根据自主总线的周期重复工作特性,利用了迭代域中使用的一种新型的动态线性化方法,并给出了具有伪梯度(PG)的时变数据模型。然后,R-MFAILC控制器的设计具有建议的自适应衰减因子。所提出的算法的优势在于R-MFAILC控制器,该控制器仅利用了调节实体的输入和输出数据。此外,R-MFAILC控制器具有很强的鲁棒性,并且可以处理系统的非线性测量干扰。在基于卡车SIM模拟平台的模拟中,验证了所提出的算法的有效性。使用严格的数学分析来证明所提出算法的稳定性和收敛性。
摘要 目的:通过脑机接口进行的神经反馈 (NFB) 训练已被证明可有效治疗神经系统缺陷和疾病,并提高健康个体的认知能力。之前的研究显示,使用 P300 拼写器的基于事件相关电位 (ERP) 的 NFB 训练可以通过逐步增加拼写任务的难度来提高健康成年人的注意力。本研究旨在评估任务难度适应对健康成人基于 ERP 的注意力训练的影响。为此,我们引入了一种采用迭代学习控制 (ILC) 的新型适应方法,并将其与现有方法和具有随机任务难度变化的对照组进行比较。方法:该研究涉及 45 名健康参与者,为一项单盲、三组随机对照试验。每组接受一次 NFB 训练,使用不同的方法来调整 P300 拼写任务中的任务难度:两组采用个性化难度调整(我们提出的 ILC 和现有方法),一组采用随机难度。我们使用视觉空间注意任务在训练课程之前和之后评估认知表现,并通过问卷收集参与者的反馈。主要结果。所有组在训练后的空间注意任务中都表现出显著的表现提高,平均增加了 12.63%。值得注意的是,使用所提出的迭代学习控制器的组在训练期间实现了 P300 幅度增加 22%,训练后 alpha 功率降低 17%,同时与其他组相比显著加快了训练过程。意义。我们的结果表明,使用 P300 拼写器的基于 ERP 的 NFB 训练可有效增强健康成年人的注意力,一次课程后即可观察到显著的改善。使用 ILC 的个性化任务难度调整不仅可以加速训练,还可以增强训练期间的 ERP。加速 NFB 训练,同时保持其有效性,对于最终用户和临床医生的接受度至关重要。
Oak Ridge,TN 37831,美国{Amasyalik,Yanliu,zandih }@ornl.gov摘要 - Reinforeveres Learning(RL)是一种强大的工具,在许多领域显示了许多领域,例如机器人和游戏。 由于RL算法通过与环境连续交互来学习最佳控制策略,因此这些算法需要大量数据才能学习,这将其应用限制为广泛的域。 因此,需要提高RL的培训和数据效率。 为了解决这一研究差距,本文提出了一种转移学习(TL)方法,以通过减少数据需求,从而减少培训时间来提高RL算法的效率。 为了证明拟议的方法,进行了从一组建筑物到另一个建筑物的知识转移。 结果表明,所提出的TL方法是一种有前途的方法,可以有效地利用类似RL任务的信息并减少RL算法的数据需求。Oak Ridge,TN 37831,美国{Amasyalik,Yanliu,zandih }@ornl.gov摘要 - Reinforeveres Learning(RL)是一种强大的工具,在许多领域显示了许多领域,例如机器人和游戏。由于RL算法通过与环境连续交互来学习最佳控制策略,因此这些算法需要大量数据才能学习,这将其应用限制为广泛的域。因此,需要提高RL的培训和数据效率。为了解决这一研究差距,本文提出了一种转移学习(TL)方法,以通过减少数据需求,从而减少培训时间来提高RL算法的效率。为了证明拟议的方法,进行了从一组建筑物到另一个建筑物的知识转移。结果表明,所提出的TL方法是一种有前途的方法,可以有效地利用类似RL任务的信息并减少RL算法的数据需求。
摘要 - 由于电缆的固有灵活性和弹性,电缆驱动的并行机器人(CDPR)通常对模型和动态控制具有挑战性。将在线几何可重新配置性的附加包含在CDPR上导致具有高度非线性动力学的复杂不确定的系统。必要的(数值)冗余分辨率需要多个优化的层,以使其对实时控制的应用程序计算效率过高。在这里,深厚的强化学习方法可以提供一个无模型的框架来克服这些挑战,并可以提供实时的动态控制。本研究讨论了动态轨迹跟踪中无模型DRL实现的三个设置:(i)具有固定工作空间的标准非冗余CDPR; (ii)在可重构CDPR上具有冗余分辨率的端到端设置中; (iii)在一种脱钩的方法中,分别解决运动学和驱动裁员。
在许多现实场景中,人类和机器人需要在联合任务中协调他们的动作以实现共同目标。虽然当前文献中存在几个关于二元人机交互的例子,但一个或多个人工智能体需要与许多人类交互的多智能体场景仍然很少被研究。在本文中,我们解决了合成自主人工智能体的问题,该人工智能体在人类群体中执行典型的振荡关节任务,同时表现出一些所需的人类运动特征。我们提出了一种基于深度强化学习的架构,该架构足够灵活,可以使人工智能体与不同规模的人类群体互动。作为一个典型的协调任务,我们考虑镜像游戏的多智能体版本,这是一种振荡运动任务,在文献中广泛用于研究人类运动协调。
摘要我们制定对量子问题的控制,以执行任意量子计算作为优化问题。然后,我们为其解决方案提供了一种示意图机器学习算法。想象一下一条长条“量子物质”,并具有某些假定的物理特性,并配备了定期间隔的电线以提供输入设置并阅读结果。在展示了如何将来自设置到结果的相应地图解释为量子电路之后,我们提供了一个机器学习框架,以“学习”在哪些设置上实现通用门集的成员。为此,我们设计了一个损失函数来衡量提出的编码未能实现给定电路的严重差异,并证明存在“层析上完整的”电路集:如果给定编码的编码最小化该集合的每个成员的损耗函数,它也将用于任意电路。最佳,任意量子门,因此可以使用这些东西实现任意量子程序。