Loading...
机构名称:
¥ 5.0

在我们的SIM到运行研究中,我们使用了几种GPU硬件设置和拓扑,包括NVIDIA RTX 4090,A100和H100 GPU。在图6中,我们分解了leapcubereitient环境的训练性能,这些环境对一组固定的RL超参数组合的构造,表明MJX在消费者级和数据度假图形上都有效。我们看到,具有较高理论性能和较大拓扑的GPU可以将训练时间减少到诸如手机重新定位(包括手机重新定位)的训练时间3倍。我们将拓扑特定的超参数视为未来的工作(例如只要RL算法可以利用每个时期的数据增加),理想情况下应增加较大拓扑以最大程度地增加吞吐量的环境。在table 4,表7和表9中,在附录中,我们对所有环境的训练吞吐量

Mujoco Playground

Mujoco PlaygroundPDF文件第1页

Mujoco PlaygroundPDF文件第2页

Mujoco PlaygroundPDF文件第3页

Mujoco PlaygroundPDF文件第4页

Mujoco PlaygroundPDF文件第5页