本文使用的深层确定性策略梯度算法(DDPG)是一种策略学习方法,可输出连续动作。它来自确定性策略梯度(DPG)算法。它借鉴了Actor-Critic策略梯度的单步更新的优势,并结合了Deep Q Network(DQN)的体验重播和目标网络技术,以改善Actor-Critic方法的收敛性。DDPG算法由策略网络和目标网络组成。ddpg使用确定性策略来选择动作,因此输出不是行为的概率,而是特定行为。是策略网络的参数,t a是动作,而t是状态。目标网络将在一定时间段内固定网络中的参数,从而消除由当前网络和目标网络之间相同参数引起的模型振荡。DDPG算法具有强大的深神经网络拟合和概括能力,以及处理连续动作空间的优势,并通过在当前状态下学习最佳动作策略来连续训练和调整神经网络参数。
由于固有的波动,风能整合到大规模的网格中会带来不稳定和其他安全风险。在本研究中,提出了使用多代理深钢筋学习,风力涡轮机(WT)的新协调控制策略和混合动力储能系统(HESS)是为了进行风能平滑的目的,其中HESS与转子动能和风力涡轮机的旋翼动能结合在一起。首先,通过自适应变化模式分解(VMD)预测风力发电量并分解为高,中和低频组件。然后,通过多代理双层列表深层确定性策略梯度算法(MATD3)进行高频和中频的参考功率的最佳二级分配,以平滑功率输出。为了提高学习的勘探能力,将一种新型的α-状态lévy噪声注入了MATD3的动作空间,并动态调节了噪声。模拟和RT-LAB半物理实时实验结果表明,提出的控制策略可以合理地充分利用WT和HESS组合生成系统的平滑输出功率,延长储能元件的寿命并降低WT的磨损。
策略梯度算法对在执行学习中的应用显示出了令人印象深刻的结果,但长期以来,人们已经认识到,一些更正是为了改善收敛性;实施此类更正的几个众所周知的程序是对数势垒进行加强算法[23],信任区域策略优化TRPO [16]和近端策略优化(PPO,OpenAI的默认默认依据重新启动学习算法);所有人都使用正规化形式,即所有人都试图通过各种方法限制和控制策略更新。在这种一般环境中,我们将在此关注不同类型的正则化,并最具体地谈论多武装匪徒。虽然策略梯度算法显示出有趣的数值性能,但对MAB收敛的理论研究直到最近才见证了重要的进步。在[8]中证明,随机梯度程序对于线性二次调节器的一般情况而言,而Agarwal等人则具有很高的可能性。在Markov Prosess的一般框架下给出了[2]的理论结果,并在不同的策略参数中特别证明了收敛性;在我们在此处分析的软马克斯参数化的特定情况下,它们检查了三种解决此问题的算法。最初的方法涉及在目标上直接的策略梯度下降而没有改变。第二种方法 - 企业熵正规化,以防止参数过度生长,从而确保足够的探索。最后,他们研究了自然政策差异算法,并证明了与分配不匹配系数或特定维度特定因素无关的全球最佳结果。回想一下,相比之下,我们在这里研究了使用L 2正则化的SoftMax参数化。在几个月前(在写作时)在线发表的一篇最近的论文[4]中,J。Bhandari和D. Russo讨论了SoftMax参数化,但重点介绍(我们引用)“理想化的政策梯度更新,并访问了确切的梯度评估”。是一个区别,我们将在这里重点放在非脱颖而出的梯度上(这是实施的梯度),但以更强的假设为代价。然而,在另一项最先进的研究[11]中,作者做出了三项贡献。首先,他们确定,当启用真实梯度(即没有随机性)时,具有软磁性参数化的策略梯度以O(1 /T)的速率收敛。然后,他们检查了熵登记的策略梯度,并证明其加速收敛速率。最后,通过整合上述结果,它们描述了熵正规化增强策略优化的机制。最后,其他一些相关的作品包括[21],更具体地研究了使用深神经网络时的现场,而[24]通过使用新的变体进行了折现因子来研究蒙特卡洛估计的随机推出的新变体。
摘要我们提出了一个新颖的端到端框架,用于使用加固学习(RL)解决随机需求(VRPSD)解决车辆路由问题。我们的公式通过其他可观察到的随机变量结合了随机需求之间的相关性,从而提供了一个实验性证明,以证明non-i.i.i.d。随机需求为改进路由解决方案提供了机会。我们的方法弥合了RL应用于VRPSD的差距,并包括使用策略梯度算法优化的参数化随机策略,以生成形成解决方案的一系列操作。我们的模型表现优于先前的最先进的元启发式学,并证明了环境变化的鲁棒性,例如供应类型,车辆容量,相关性和需求的噪声水平。此外,通过观察奖励信号并遵循可行性约束,可以轻松地为不同的VRPSD场景重新训练该模型,从而使其高度灵活且可扩展。这些发现突出了RL提高运输效率并减轻其在随机路由问题中的环境影响的潜力。我们的实施可在线获得。a
摘要:携带不同设备用于空中悬停操作的无人机的应用正在越来越广泛,但是目前,依赖于悬停控制的强化学习方法,目前有非常有意的研究,并且尚未在物理机器上实施。无人机在悬停控制方面的行为空间是连续且大规模的,这对于基本算法和基于价值的增强学习(RL)算法很难获得良好的结果。响应于这个问题,本文将观察者 - 演员(WAC)算法应用于无人机的悬停控制,该算法可以迅速锁定勘探方向并实现无人机悬停控制的高度鲁棒性,同时改善学习效率和降低学习成本。本文首先利用基于行为价值Q(QAC)和深层确定策略梯度算法(DDPG)的参与者批评算法,用于无人机悬停控制学习。随后,提出了带有添加观察者的批评算法,其中观察者使用带有神经网络作为动态监视的参数的PID控制器,将学习过程转换为监督学习。最后,本文使用了经典的增强学习环境图书馆,健身房和当前主流加固学习框架,PARL,用于
自主停车是一种革命性的技术,它随着深度强化学习的兴起,尤其是双胞胎延迟的深层确定性政策梯度算法(TD3),它改变了汽车行业。尽管如此,由于Q值估计的偏见,在确定在特定状态下采取的行动的良好时,TD3的鲁棒性仍然是一个重大挑战。为了研究这一差距,本文分析了TD3中的不同损失函数,以更好地近似真正的Q值,这对于最佳决策是必不可少的。评估了三个损失功能;平均平方错误(MSE),平均绝对误差(MAE)和HUBER损失,通过模拟实验进行自动停车。结果表明,HUBER损失的TD3具有最高的收敛速度,而最快的演员和批评损失收敛。发现Huber损失函数比孤立使用的MSE或MAE这样的损耗函数更强大,更有效,这使其成为TD3算法中现有损失函数的合适替代。将来,当估计的Q值代表以特定状态采取行动的预期奖励的估计Q值时,将使用Huber损失的TD3用作解决TD3中高估问题的基本模型。
摘要 - 强化学习(RL)在各种计算机游戏和模拟中取得了一些令人印象深刻的成功。大多数这些成功都是基于代理可以从中学习的大量情节。在典型的机器人应用中,可行尝试的数量非常有限。在本文中,我们提出了一种应用于乒乓球机器人示例的样品效率RL算法。在乒乓球中,每个中风都有不同的位置,速度和旋转。因此,必须在高维连续状态空间上找到准确的回报。在几个试验中进行学习,该方法嵌入了我们的机器人系统中。通过这种方式,我们可以使用一个步骤的环境。状态空间在击球时间(位置,速度,旋转)时取决于球,而动作是击球时的球拍状态(方向,速度)。开发了一种基于参与者的确定性策略梯度算法,用于加速学习。我们的方法在模拟和在许多具有挑战性的场景中都具有竞争力。在200次培训发作中,无需预先培训即可获得准确的结果。呈现我们实验的视频可在https://youtu.be/uratdol6wpw上获得。
强化学习已彻底改变了动态环境中的决策过程,但它经常在自主检测和实现目标的情况下而在没有明确反馈信号的情况下进行斗争。例如,在源术语问题问题中,缺乏精确的环境信息使得提供明确的反馈信号并定义和评估源位置是如何终止的。为了应对这一挑战,开发了自主目标检测和停止(AGDC)模块,通过在任务完成后纳入自主目标检测和CES的自动反馈机制来增强各种RL算法。我们的方法可以通过近似代理人的信念来有效地识别不确定的目标,从而显着增强了反馈有限的环境中RL算法的能力。为了验证我们的方法的效率,我们将AGDC与深度Q网络,近端政策优化和深度确定的策略梯度算法相结合,并评估了其在源期限估计问题上的表现。表明,AGDC增强的RL算法显着超过了传统的统计方法,例如信息性和探索以及非统计的随机行动选择方法,例如信息触发,内特抗体和双重控制。这些改进在成功率,平均行进距离和搜索时间方面显而易见,突出了AGDC在复杂的现实世界情景中的有效性和效率。
在这份简短的报告中,我们介绍了我们的团队实施的强化学习(RL)[1]来应对在IROS 2024 1举行的第二次AI奥运会竞赛的模拟阶段。The algorithm we employed, Monte- Carlo Probabilistic Inference for Learning COntrol (MC- PILCO) [2], is a Model-Based (MB) RL algorithm that proved remarkably data-efficient in several low-dimensional benchmarks, such as a cart-pole, a ball & plate, and a Furuta pendulum, both in simulation and real setups.mc-pilco也是赢得本次比赛第一版的算法[3]。mc-pilco是MB策略梯度算法的一部分。它通过与系统进行交互来利用收集的数据来得出系统动力学模型并通过模拟系统来优化策略,而不是直接在系统数据上优化策略。应用于物理系统时,这种方法可以比无模型(MF)解决方案高表现和数据效率高。本文的组织如下:第二部分介绍了竞争的目标和设置。第三部分介绍了MC-PILCO算法。 第四节报告了已经执行的实验,最后V节结束了论文。第三部分介绍了MC-PILCO算法。第四节报告了已经执行的实验,最后V节结束了论文。第四节报告了已经执行的实验,最后V节结束了论文。
在过去的几十年中迅速开发了用于解决最佳控制问题的多种拍摄方法,并被广泛认为是加快优化过程的有希望的方向。在这里,我们根据顺序二次编程(SQP)方法提出和分析了一种新的多重拍摄算法,该方法适用于由大规模时间依赖性的部分di ff构成方程(PDES)控制的最佳控制问题。我们研究了KKT矩阵的结构,并通过预处理的共轭梯度算法求解大规模的KKT系统。提出了一个简化的块Schur补体预处理程序,该预处理允许在时间域中进行该方法并行化。首先对所提出的算法进行了验证,该算法是针对由Nagumo方程约束的最佳控制问题的验证。结果表明,对于多种射击方法,可以通过适当的起始猜测和匹配条件的缩放来实现相当大的加速度。我们进一步将提出的算法应用于由Navier-Stokes方程控制的二维速度跟踪问题。,我们发现算法的加速度最高为12,而最多可在50张射击窗口中进行单次射击。我们还将结果与较早的工作进行了比较,该结果使用增强的拉格朗日算法而不是SQP,在大多数情况下显示了SQP方法的更好性能。