深度强化学习
机构名称:
¥ 1.0

[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸

深度强化学习

深度强化学习PDF文件第1页

深度强化学习PDF文件第2页