Loading...
机构名称:
¥ 2.0

•s =状态,包括启动状态•a =一组可能的动作•p = transition矩阵𝑃))* + = pr [𝑆012=𝑠'| |𝑆|𝑆0=𝑠,𝐴0=𝑎]•r =奖励函数,𝑅) + =)

讲座19:强化学习 - 第二部分(RL算法)

讲座19:强化学习 - 第二部分(RL算法)PDF文件第1页

讲座19:强化学习 - 第二部分(RL算法)PDF文件第2页

讲座19:强化学习 - 第二部分(RL算法)PDF文件第3页

讲座19:强化学习 - 第二部分(RL算法)PDF文件第4页

讲座19:强化学习 - 第二部分(RL算法)PDF文件第5页