点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
rl是机器学习的领域,与软件代理如何在环境中采取行动,以最大程度地提高累积奖励的概念。rl是三个基本的机器学习范式之一,以及受监督的学习和无监督的学习。它与监督的学习不同,因为它不需要标记输入/输出对并明确纠正次优的动作。相反,重点是……在探索(未知领域)和剥削(当前知识)之间取得平衡。环境通常以马尔可夫决策过程(MDP)的形式说明,因为此上下文的许多RL算法都利用动态编程技术。经典动态编程和RL算法之间的主要不同:RL不假定MDP的精确数学模型的知识,并靶向大型MDP,而确切方法变得不可行。
主要关键词