在我们的SIM到运行研究中,我们使用了几种GPU硬件设置和拓扑,包括NVIDIA RTX 4090,A100和H100 GPU。在图6中,我们分解了leapcubereitient环境的训练性能,这些环境对一组固定的RL超参数组合的构造,表明MJX在消费者级和数据度假图形上都有效。我们看到,具有较高理论性能和较大拓扑的GPU可以将训练时间减少到诸如手机重新定位(包括手机重新定位)的训练时间3倍。我们将拓扑特定的超参数视为未来的工作(例如只要RL算法可以利用每个时期的数据增加),理想情况下应增加较大拓扑以最大程度地增加吞吐量的环境。在table 4,表7和表9中,在附录中,我们对所有环境的训练吞吐量
我们提出了Mujoco Manipulus,这是一种由Mujoco物理模拟引擎提供动力的新型开源基准测试,旨在加速机器人学习的进步以进行工具操作。我们的基准包括用于操纵工具的各种任务 - 该领域目前缺乏统一的基准。不同的研究小组依赖于定制设计的任务或封闭式设置,从而限制了交叉可靠性并阻碍了该领域的重大进展。为此,我们的基准提供了16个具有挑战性的工具操纵任务,包括倒入,sc sc,刮擦,堆叠,聚集,锤击,迷你高尔夫球和乒乓球的变体。基准测试支持基于州立和基于视觉的观察空间,与体育馆API完全集成,并与广泛使用的深入强化学习库相连,以确保社区轻松采用。我们在基准上进行了广泛的强化学习实验,我们的结果表明,对于培训工具操纵策略,要取得进展。可以在我们的匿名项目网站:mujoco-manipulus.github.io上找到我们的代码库和其他学识的策略的其他视频。
•LQR:线性系统动力学,二次成本。分析封闭解决方案•MDP和非线性动力学,任意成本。迭代解决方案•RL:未知环境动态,成本未知。这里解决方案方法的结构是什么?[Mujoco]
动物的身体影响神经系统如何产生行为。因此,2对感觉运动行为神经控制的详细建模需要3个身体的详细模型。在这里,我们在Mujoco Physics发动机中贡献了4种水果果蝇Melanogaster的解剖学生物力学全身模型。我们的模型是通用的,5可以在陆地和空气中模拟各种频率行为。我们通过模拟逼真的运动和步行来证明模型的6个通用力。为了支持7这些行为,我们通过流体力和8种粘附力的现象学模型扩展了穆霍科。通过数据驱动的端到端强化学习,我们证明了9这些进步使能够基于高级转向控制信号的复杂轨迹进行现实运动10的神经网络控制器的训练。我们通过训练12个模型来证明11使用视觉传感器以及重复使用预训练的通用式旋转控制器。我们的项目是一个开源平台,用于在体现的上下文中对感觉运动行为的神经控制建模。14
进化策略(ES)已成为一种竞争性的替代方法,用于无模型的强化学习,在Mujoco和Atari等任务中展示示例性能。值得注意的是,它们在场景 - 具有不完美奖励功能的情况下发光,这对于浓厚的奖励信号可能难以捉摸的现实应用程序非常宝贵。然而,ES中的一个固有假设(所有输入特征都是任务 - 相关的)都会挑战,尤其是在现实世界中常见的不相关特征时。这项工作仔细检查了这一限制,尤其是专注于自然进化策略(NES)变体。我们提出了Nesht,这是一种新颖的方法,该方法将坚硬的阈值(HT)与NES融为一体,以使其具有稀疏性,从而确保仅采用相关特征。在严格的分析和经验测试的支持下,Nesht证明了其在减轻无关的遗产和散发诸如嘈杂的Mujoco和Atari任务等复杂决策问题中的陷阱方面的希望。我们的代码可在https://github.com/cangcn/nes-ht上找到。
当前的加强学习方法无法直接学习解决最低成本触及的问题的政策,以最大程度地减少受到达到目标并避免不安全状态的限制的累积成本,因为这种新优化问题的结构与当前方法不符。相反,在将所有目标与加权总和结合在一起的情况下解决了一个替代问题。但是,这种替代目标导致次优政策不会直接最大程度地减少累积成本。在这项工作中,我们提出了RC-PPO,这是一种基于加强学习的方法,用于通过使用与汉密尔顿 - 雅各布斯的可及性的连接来解决最低成本的避免问题。经验结果表明,与现有方法相比,RC-PPO以相当的目标率学习政策,而与现有方法相比,在Mujoco Simulator上的一套最低限度到达范围的基准测试套件中的累积成本低多达57%。
模拟对真实性增强学习(RL)面临着核对模拟和现实世界中的差异的关键挑战,这可能会严重降级剂。一种有希望的方法涉及学习校正以代表残留误差函数的模拟器正向动力学,但是对于高维状态(例如图像),此操作是不切实际的。为了克服这一点,我们提出了Redraw,这是一种潜在的自回归世界模型,在模拟中鉴定在模拟中,并通过剩余的潜在动力学而不是明确观察到的状态对目标环境进行了验证。使用此改编的世界模型,Redraw使RL代理可以通过校正动力学下的想象的推出来优化RL代理,然后在现实世界中部署。在多个基于视觉的Mujoco域和一个物理机器人视线跟踪任务中,重新绘制有效地对动态变化,并避免在传统转移方法失败的低数据方案中过度拟合。
Lucidsim一次提供了所有三种解决方案。首先,我通过围绕Mujoco物理引擎构建并使用对象掩码和深度从模拟器构成和调节生成的图像来使数据实现和多样化。这确保了与场景几何形状的视觉一致性。为了减轻由于这种调节而导致的样本多样性的丧失,我通过从Chatgpt采购结构化图像提示来注入变化。第二,我通过一种新技术(DIM)提高了渲染速度,该技术通过机器人的摄像头姿势和场景几何形状计算得出的光流,将单个生成的图像扭曲为连续的帧。昏暗的使Lucidsim更快。最后,要生成policy数据,我们需要在封闭循环中运行图像生成,视觉策略在每个时间步骤中都会使用生成的图像。让Lucidsim“ Go Burrr”是关键,因此我开发了系统工具来分发轨迹采样,图像翘曲和跨80 + GPU的图像生成。Lucidsim的结果表明,闭环培训完全负责获得视觉政策以达到专家级的性能。
{ Computer Science: Programming (Python, C++, C, Matlab, Verilog, Assembly, Perl, TCL, Julia, GO), Machine Learning (Pytorch, Tensorflow, JAX, Pytorch3d, Pytorch Geometric), Data Structures & Algorithms, Operating System, Natural Language Processing, Computer Vision, Convex Optimization, Meta Learning, Reinforcement Learning, Convex Optimization, Advanced ML Theories & Techniques, Others (Bash, Git, Linux) { Robotics: Dynamics & Simulation, Computer Vision (traditional geometric-based & learning-based), Locomotion, Linear & Nonlinear Control (PID, Feedback Linearization, LTI, Optimal Control, etc), Localization, Mapping, Motion Planning, Navigation, Manipulators, ROS, worked with KUKA, Franka manipulator武器,模拟器(Guazebo,Mujoco,V-Rep,Gym){数学:微积分,线性代数,ODE,ODE,数值分析,概率和统计,一阶逻辑,拓扑,拓扑,物理和工程:控制系统,控制系统,动态,经典和量子和量子,电力和磁性,结构和材料,机构,型号,差异, drigus&dift>
摘要。连续系统是可以通过连续和模拟变量刺激的物理系统。参数或变量在值范围内。出色的连续控制策略使系统能够在无需太多干预的情况下适当,平稳地采取行动,这在机器人技术,自动驾驶,行业等中很有用。DRL算法在连续系统控制中具有广泛的应用。本文将探讨四种DRL算法的性能,即深层确定性的策略梯度(DDPG),双延迟DDPG(TD3),软演员 - 批判(SAC)和近端策略操作(PPO)(PPO)(PPO),使用来自Mujoco的四个环境中的环境中的环境中。进行了比较实验,并比较了收敛的最高奖励和所需的迭代数量。比较实验的结果表明,这些DRL算法可以在连续控制任务中学习相对适当的策略。特别是,发现TD3和SAC能够更有效地学习控制策略。需要进一步的研究来找到更好的方法来调整超参数。