自主性强大的自主性

自我游戏在两人和多玩家游戏中具有动力的突破。在这里,我们表明自我播放是另一个领域中出奇的有效策略。我们表明,健壮和自然主义的驾驶完全来自以前所未有的规模的模拟中的自我播放 - 驾驶的16亿公里。这是由批处理的模拟器Gigaflow启用的,可以在单个8-GPU节点上综合和训练42年的主观驾驶体验。由此产生的政策在三个独立的自动驾驶基准测试中实现了最先进的绩效。该策略的表现优于…

来源:Apple机器学习研究

自我游戏在两人和多玩家游戏中具有动力的突破。在这里,我们表明自我播放是另一个领域中出奇的有效策略。我们表明,健壮和自然主义的驾驶完全来自以前所未有的规模的模拟中的自我播放 - 驾驶的16亿公里。这是由批处理的模拟器Gigaflow启用的,可以在单个8-GPU节点上综合和训练42年的主观驾驶体验。由此产生的政策在三个独立的自动驾驶基准测试中实现了最先进的绩效。在人类驾驶员中,在记录的现实世界情景中进行测试时,该政策的表现优于先前的艺术状态,而在培训期间从未看到人类数据。当评估人类参考并实现前所未有的鲁棒性时,该政策是现实的,平均在模拟中的事件之间进行了17。5年的持续驾驶。