点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
本文开发了一种新颖的基于评分的增强学习(RBRL)方法,该方法使用人类评级来获得强化学习的指导。不同于现有的基于偏好和基于排名的强化学习范例,基于人类对样本对的相对偏好,提出的基于评分的增强方法是基于人类对单个传动系统的人类评估,而没有样本对之间的相对比较。基于评级的增强学习方法建立在人类评级的新预测模型和新型的多类损失函数的基础上。我们最终基于合成等级和实际人类等级进行了几项实验研究,以评估新的基于评级的增强学习方法的性能。
主要关键词