Loading...
机构名称:
¥ 3.0

td(0)更新:v(s t)←v(s t) +α[r t + 1 +γv(s t + 1) - v(s t)]

强化学习 - 时间差异学习

主要关键词

强化学习 - 时间差异学习PDF文件第1页

强化学习 - 时间差异学习PDF文件第2页

强化学习 - 时间差异学习PDF文件第3页

强化学习 - 时间差异学习PDF文件第4页

强化学习 - 时间差异学习PDF文件第5页