Loading...
机构名称:
¥ 1.0

已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。

用视觉变压器缩放离线Q学习

用视觉变压器缩放离线Q学习PDF文件第1页

用视觉变压器缩放离线Q学习PDF文件第2页

用视觉变压器缩放离线Q学习PDF文件第3页

用视觉变压器缩放离线Q学习PDF文件第4页

用视觉变压器缩放离线Q学习PDF文件第5页

相关文件推荐

2020 年
¥4.0
1900 年
¥6.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2022 年
¥4.0
2025 年
¥1.0
2025 年
¥1.0