Loading...
机构名称:
¥ 2.0

在经验(深)RL研究中确实是这种情况,在这种情况下,算法通过与模拟环境相互作用与样品数据轨迹相互作用,从而发现了近乎最佳的策略。这里的目标非常明确:使用给定数量的计算找到一个良好的策略,其中包括算法的成本和模拟器的采样数据的成本。While this paradigm has led to impressive successes in difficult simulation tasks [ 75 , 87 ], it becomes increas- ingly clear that the above paradigm is insufficient for many potential applications we hope to apply RL to, in- cluding adaptive clinical trials [ 112 , 113 , 79 , 74 ], rec- ommendation systems and customer relationship manage- ment [ 114 , 1 ], online education [ 12 , 64 ], and 更多的。上述情况的一个共同点是,人类/用户/学生是“环境”的一部分,很难为人类的心理/生物学方面提出准确的模拟器。其中 -

大型状态空间中的离线增强学习

大型状态空间中的离线增强学习PDF文件第1页

大型状态空间中的离线增强学习PDF文件第2页

大型状态空间中的离线增强学习PDF文件第3页

大型状态空间中的离线增强学习PDF文件第4页

大型状态空间中的离线增强学习PDF文件第5页

相关文件推荐