Loading...
机构名称:
¥ 1.0

问题1:基本的Q学习表现。(DQN)包括一个学习曲线图,以显示您对Pac-Man女士实施的实现。X轴应对应于时间步骤的数量(考虑使用科学符号),Y轴应显示迄今为止平均每类奖励以及最佳的平均奖励。这些数量已经计算出来,并在“入门代码”中打印。它们也已登录到数据文件夹,并且可以像以前的作业一样使用张板可视化。一定要标记Y轴,因为我们需要验证您的实施能获得与我们的相似的奖励。您不需要修改默认的超参数以获得良好的性能,但是如果修改任何参数,请在图的标题中列出它们。最终结果应使用以下实验名称:

作业3:Q学习和演员 - 批判算法

作业3:Q学习和演员 - 批判算法PDF文件第1页

作业3:Q学习和演员 - 批判算法PDF文件第2页

作业3:Q学习和演员 - 批判算法PDF文件第3页

作业3:Q学习和演员 - 批判算法PDF文件第4页

作业3:Q学习和演员 - 批判算法PDF文件第5页