3分散的培训和执行(DTE)19 3.1 DTE概述。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。19 3.2分散,基于价值的方法。。。。。。。。。。。。。。。。。。。。。。。。。20 3.2.1独立Q学习(IQL)。。。。。。。。。。。。。。。。。。。。。。。。20 3.2.2提高IQL的性能。。。。。。。。。。。。。。。。。。。。。。22 3.2.3深度扩展,问题和固定。。。。。。。。。。。。。。。。。。。。。。24 3.3分散政策梯度方法。。。。。。。。。。。。。。。。。。。。。。。。28 3.3.1分散的增强。。。。。。。。。。。。。。。。。。。。。。。。。28 3.3.2独立演员评论家(IAC)。。。。。。。。。。。。。。。。。。。。。。。。28 3.3.3其他分散政策梯度方法。。。。。。。。。。。。 div>。 div>。 div>。 div>。 div>30 3.4其他主题。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>30 div>