Loading...
机构名称:
¥ 5.0

⇒允许看到所有未来的奖励•不需要模型/MDP过渡或奖励的确切分布•不涉及未来的估计(不进行引导程序)•估计未来奖励的经验奖励的预期奖励,遵循策略π•但是:只能应用于情节问题(情节都必须终止以完成)

无模型增强学习

无模型增强学习PDF文件第1页

无模型增强学习PDF文件第2页

无模型增强学习PDF文件第3页

无模型增强学习PDF文件第4页

无模型增强学习PDF文件第5页