Loading...
机构名称:
¥ 1.0

r einformention学习(RL)是一种计算理论,讲述了确定最大化收集奖励的最佳行为(Bhui等,2021; Sutton&Barto,2018; Williams,1992)。rl是游戏中的成功策略(Silver等,2018; Tesauro,Gerald,1994),并有望成为理解神经加工的理论框架,尤其是在多巴胺神经元中(Hollerman&Schultz,1998; Kim等,2020),但请参见(Jeong et al。,2022年)。尽管RL的早期概念受到动物行为的启发(Sutton&Barto,1981),但将RL应用于自然行为仍然具有挑战性。主要是,行为往往是最佳的,违反了最佳行动政策(Akaishi等,2014,p。201; Akrami等,2018; Samuelson,William&Zeckhauser,Richard,Richard,Richard,Richard,1988)。行为次优的行为本身不会伪造RL理论;这是高估的探索量仍然令人困惑。

估计增强学习中的运动勘探

估计增强学习中的运动勘探PDF文件第1页

估计增强学习中的运动勘探PDF文件第2页

估计增强学习中的运动勘探PDF文件第3页

估计增强学习中的运动勘探PDF文件第4页

估计增强学习中的运动勘探PDF文件第5页