I n多名强化学习,搜索者通常会面临一个具有挑战性的权衡:使用需要基础计算资源的复杂环境,或者更简单的dy-namics进行加急执行,尽管以可转让的成本来实现更现实的任务。该媒介会挖掘可矢量环境的潜力,从而使平行环境推出并完全利用现代GPU的平行化能力。我们提出了各种RL环境库的比较,高点其功能和限制,以端到端硬件加速培训管道。我们观察到,最常用的RL算法库尚未完全包含最终到端硬件的训练管道,以及用于硬件加速的框架与机器学习中的框架之间的有限交叉兼容:Pytorch,Pytorch,Tensorflow,Tensorflow,Tensorflow,tensorflow和Jax,jax,jax,limits for Mix and Matchers for Mix and Matchers and and rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar and rar rar rar and rar rar rar rar rar rar rar rar rar rar and rar rar。
主要关键词