Loading...
机构名称:
¥ 3.0

rl是机器学习的领域,与软件代理如何在环境中采取行动,以最大程度地提高累积奖励的概念。rl是三个基本的机器学习范式之一,以及受监督的学习和无监督的学习。它与监督的学习不同,因为它不需要标记输入/输出对并明确纠正次优的动作。相反,重点是……在探索(未知领域)和剥削(当前知识)之间取得平衡。环境通常以马尔可夫决策过程(MDP)的形式说明,因为此上下文的许多RL算法都利用动态编程技术。经典动态编程和RL算法之间的主要不同:RL不假定MDP的精确数学模型的知识,并靶向大型MDP,而确切方法变得不可行。

LSE法律,技术与社会(LTS)中心事件

LSE法律,技术与社会(LTS)中心事件PDF文件第1页

LSE法律,技术与社会(LTS)中心事件PDF文件第2页

LSE法律,技术与社会(LTS)中心事件PDF文件第3页

LSE法律,技术与社会(LTS)中心事件PDF文件第4页

LSE法律,技术与社会(LTS)中心事件PDF文件第5页