Loading...
机构名称:
¥ 1.0

•初始化环境:状态:{s 0,s 1,s 2},动作:{a 0,a 1},奖励:r(s 0,a 0)= -1,r(s 0,a 1)= +2,r(s 1,a 1,a 0)= +3,r(s 1,r(s 1,a 1,a 1,a 1)= +1,a 1,a 1,a 1,r(s s 2,r(s s 2,s raction)= 0,

加固学习简介(RL)

加固学习简介(RL)PDF文件第1页

加固学习简介(RL)PDF文件第2页

加固学习简介(RL)PDF文件第3页

加固学习简介(RL)PDF文件第4页

加固学习简介(RL)PDF文件第5页