Loading...
机构名称:
¥ 1.0

本文开发了一种新颖的基于评分的增强学习(RBRL)方法,该方法使用人类评级来获得强化学习的指导。不同于现有的基于偏好和基于排名的强化学习范例,基于人类对样本对的相对偏好,提出的基于评分的增强方法是基于人类对单个传动系统的人类评估,而没有样本对之间的相对比较。基于评级的增强学习方法建立在人类评级的新预测模型和新型的多类损失函数的基础上。我们最终基于合成等级和实际人类等级进行了几项实验研究,以评估新的基于评级的增强学习方法的性能。

基于评级的增强学习

基于评级的增强学习PDF文件第1页

基于评级的增强学习PDF文件第2页

基于评级的增强学习PDF文件第3页

基于评级的增强学习PDF文件第4页

基于评级的增强学习PDF文件第5页