摘要。连续系统是可以通过连续和模拟变量刺激的物理系统。参数或变量在值范围内。出色的连续控制策略使系统能够在无需太多干预的情况下适当,平稳地采取行动,这在机器人技术,自动驾驶,行业等中很有用。DRL算法在连续系统控制中具有广泛的应用。本文将探讨四种DRL算法的性能,即深层确定性的策略梯度(DDPG),双延迟DDPG(TD3),软演员 - 批判(SAC)和近端策略操作(PPO)(PPO)(PPO),使用来自Mujoco的四个环境中的环境中的环境中。进行了比较实验,并比较了收敛的最高奖励和所需的迭代数量。比较实验的结果表明,这些DRL算法可以在连续控制任务中学习相对适当的策略。特别是,发现TD3和SAC能够更有效地学习控制策略。需要进一步的研究来找到更好的方法来调整超参数。
摘要。强化学习已成为一种强大的方法,用于解决各个领域的复杂连续控制任务。本文对两种突出的强化学习算法进行了广泛的比较分析:深层确定性策略梯度(DDPG)算法及其高级对应物,即Twin删除的DDPG(TD3)算法。主要的重点是评估这些算法在运动控制领域内的性能和有效性,这是一个具有实质性现实世界的领域。本研究以Walker2D问题为中心,Walker2D问题是一项具有挑战性的机能控制任务,可在OpenAI Gym环境中提供。walker2d预示着令人信服的测试床,用于评估在机器人技术,自主系统和物理控制等上下文中增强学习算法的实用性。通过对DDPG和TD3进行详细检查,作者旨在阐明其在连续控制场景中的优势和劣势。超出了学术利益,这项研究具有重要的现实意义。掌握连续控制任务对从机器人技术和自动化到医疗保健及其他地区的应用具有巨大的希望。本质上,这项研究弥合了在强化学习方面的理论进步与解决现实世界挑战方面的实际含义之间的差距。通过在苛刻的运动控制背景下对这些算法进行全面评估,这项工作有助于更广泛地理解重新学习学习的潜力,以推动各种行动中的创新和效率。
摘要 - 本文研究DDPG算法在轨迹跟踪任务中的应用,并提出了一种与FRENET坐标系相结合的轨迹跟踪控制方法。通过将车辆的位置和速度信息从笛卡尔坐标系转换为FRENET坐标系,该方法可以更准确地描述车辆的偏差和旅行距离,相对于道路的中心线。DDPG算法采用了参与者 - 批评框架,使用深层神经网络进行策略和价值评估,并将体验重播机制和目标网络结合在一起,以提高算法的稳定性和数据利用效率。实验结果表明,基于FRENET坐标系的DDPG算法在复杂环境中的轨迹跟踪任务中表现良好,可实现高精度和稳定的路径跟踪,并证明其在自主驾驶和智能运输系统中的应用潜力。
本文使用的深层确定性策略梯度算法(DDPG)是一种策略学习方法,可输出连续动作。它来自确定性策略梯度(DPG)算法。它借鉴了Actor-Critic策略梯度的单步更新的优势,并结合了Deep Q Network(DQN)的体验重播和目标网络技术,以改善Actor-Critic方法的收敛性。DDPG算法由策略网络和目标网络组成。ddpg使用确定性策略来选择动作,因此输出不是行为的概率,而是特定行为。是策略网络的参数,t a是动作,而t是状态。目标网络将在一定时间段内固定网络中的参数,从而消除由当前网络和目标网络之间相同参数引起的模型振荡。DDPG算法具有强大的深神经网络拟合和概括能力,以及处理连续动作空间的优势,并通过在当前状态下学习最佳动作策略来连续训练和调整神经网络参数。
摘要:本文研究了人工智能在Gazebo模型上实现深度确定性策略梯度(DDPG)以及现实移动机器人的应用。实验研究的目标是引导移动机器人在面对固定和移动障碍物时,学习在现实环境中移动的最佳动作。当机器人在有障碍物的环境中移动时,机器人会自动控制避开这些障碍物。然后,在特定限制内维持的时间越长,积累的奖励就越多,因此会取得更好的结果。作者对许多变换参数进行了各种测试,证明了DDPG算法比Q学习、机器学习、深度Q网络等算法更有效。然后执行SLAM来识别机器人位置,并在Rviz中精确构建和显示虚拟地图。研究结果将成为设计和构建移动机器人和工业机器人控制算法的基础,应用于编程技术和工业工厂自动化控制。索引词——移动机器人、人工智能、DDPG 算法、自主导航、强化学习。
摘要氢能系统的参与已被认为是缓解气候问题的有希望的方法。作为一种有效的多能互补系统,水力发电 - 伏托抗氢(HPH)系统可能是将氢与已安装的可再生能源系统相结合的理想方法,以提高能量管理的功能,以提高能量管理的功能并减少电力降低。然而,由于时间相关的非线性水力发电过程,复杂的能量转换过程和不确定的自然资源供应,HPH系统的日内调度带来了挑战。面对这些挑战,提出了改进的深层确定性政策梯度(DDPG)基于数据驱动的调度算法。与普遍的DDPG相反,两组参与者 - 批判网络是基于先验基于知识的深神经网络的正确设计,用于搜索近乎最佳的策略和近似参与者价值功能。此外,提出了定制的奖励功能,并考虑了不同能源供应之间的相互作用,这有助于提高收敛速度和稳定性。最后,案例研究结果表明,提出的系统模型和基于改进的DDPG算法的最佳能源管理策略可以指导电力 - 氢系统以实现快速响应和更合理的能源管理。
摘要:在车辆中改变自动驾驶汽车的明智决定一直是该行业研究的焦点。依赖于预定义规则的传统巷道算法不适合现实道路条件的复杂性和变化。在这项研究中,我们提出了一种利用深层确定性策略梯度(DDPG)强化学习的算法,该算法与长期短期记忆(LSTM)轨迹预测模型集成在一起,称为LSTM-DDPG。在提出的LSTM-DDPG模型中,LSTM状态模块将观测值从观察模块转换为状态表示,然后作为DDPG Actor网络的直接输入。同时,LSTM预测模块通过完全连接的层将附近车辆的历史轨迹坐标转化为单词装饰向量,从而为周围车辆提供了预测的轨迹信息。这种综合的LSTM方法考虑了附近车辆对主体车辆改变车道决定的潜在影响。此外,我们的研究强调了改变车道的过程的安全性,效率和舒适性。因此,我们为LSTM-DDPG算法设计了奖励和惩罚功能,并确定了最佳网络结构参数。然后在使用MATLAB/SIMULINK构建的模拟平台上测试该算法。我们的发现表明,LSTM-DDPG模型提供了涉及车辆相互作用的交通情况的更现实表示。这项研究为自动驾驶汽车的先进车道决定提供了新的想法。与传统的DDPG算法相比,LSTM-DDPG在归一化后平均单步奖励增长了7.4%,强调了其在更换车道改变车道的安全性和效率方面的出色性能。
抽象的机器学习一直在赋予系统设计各个方面的无线通信能力,其中基于加固的方法(RL)方法可以直接与环境互动,并有效地从收集的经验中学习,从而引起了很多研究的关注。在本文中,我们提出了一种新颖且有效的基于RL的多光束组合方案,用于未来毫米波(MMWAVE)三维(3D)多输入多输入 - 多数输出(MIMO)通信系统。所提出的方案不需要完美的渠道状态信息(CSI)或通常在实践中很难获得的精确用户位置,并且很好地解决了由多用户,多路径和多孔通信系统的极为巨大状态和动作空间产生的计算复杂性的关键挑战。尤其是,提出了一个自我发项的深层确定性策略梯度(DDPG)的束选择和组合框架,以自适应地学习没有CSI的3D光束成型模式。我们旨在通过优化每个用户的服务束集和相应的组合权重来最大化MMWAVE 3D-MIMO系统的总和。为此,利用基于变压器的自我发项DDPG来获得输入元素的全局信息,并精确地捕获信号方向,从而实现了最佳的光束形式设计。仿真结果验证了所提出的自我发项DDPG的优越性,而不是在各种情况下的总和率方面的基于AI的光束成型方案。
摘要:我们解决了由铅酸电池和氢存储组成的混合储能系统的控制问题。该系统由光伏板供电,为部分孤岛建筑供电。我们的目标是长期最大限度地减少建筑碳排放,同时确保 35% 的建筑能耗由现场生产的能源提供。为了实现这一长期目标,我们建议使用深度强化学习方法学习一种基于建筑和存储状态的控制策略。我们重新表述问题,将动作空间维度缩减为 1。这大大提高了所提出方法的性能。鉴于重新表述,我们提出了一种新算法 DDPG α rep ,使用深度确定性策略梯度 (DDPG) 来学习策略。一旦学会,就使用此策略执行存储控制。模拟表明,氢存储效率越高,学习越有效。
在本研究中,将深度确定性策略梯度 (DDPG) 算法(该算法由人工神经网络和强化学习组成)应用于垂直起飞和着陆 (VTOL) 系统模型以控制俯仰角。之所以选择该算法,是因为传统控制算法(例如比例-积分-微分 (PID) 控制器)无法始终生成合适的控制信号来消除干扰和不必要的环境对所考虑系统的影响。为了控制该系统,在 Simulink 环境中对 VTOL 系统数学模型中的正弦参考进行训练,通过深度强化学习方法中具有连续动作空间的 DDPG 算法,该算法可以产生控制动作值,这些动作值采用能够根据确定的奖励函数最大化奖励的结构,以实现控制目的和人工神经网络的泛化能力。对于正弦参考和恒定参考,将俯仰角(指定 VTOL 系统的输出)的跟踪误差性能与传统 PID 控制器在均方误差、积分平方误差、积分绝对误差、百分比超调和稳定时间方面的性能进行了比较。通过模拟研究给出了得到的结果。