r einformention学习(RL)是一种计算理论,讲述了确定最大化收集奖励的最佳行为(Bhui等,2021; Sutton&Barto,2018; Williams,1992)。rl是游戏中的成功策略(Silver等,2018; Tesauro,Gerald,1994),并有望成为理解神经加工的理论框架,尤其是在多巴胺神经元中(Hollerman&Schultz,1998; Kim等,2020),但请参见(Jeong et al。,2022年)。尽管RL的早期概念受到动物行为的启发(Sutton&Barto,1981),但将RL应用于自然行为仍然具有挑战性。主要是,行为往往是最佳的,违反了最佳行动政策(Akaishi等,2014,p。201; Akrami等,2018; Samuelson,William&Zeckhauser,Richard,Richard,Richard,Richard,1988)。行为次优的行为本身不会伪造RL理论;这是高估的探索量仍然令人困惑。
I. i ntroduction r einformention学习(RL)代表机器学习中的重要范式[1],与通过与环境的互动进行优化决策过程。它从根本上使用马尔可夫决策过程(MDP)进行建模,这是一个数学框架,描述了在状态,行动,过渡和奖励方面的环境。在MDP中,代理人通过观察状态,根据定义的政策执行诉讼,获得后续奖励,并过渡到后续状态。RL算法的主要目标是得出最佳策略,该政策随着时间的推移而产生最大预期的累积奖励。深度RL通过使用深层神经网络作为函数近似器来扩展传统RL [2]。深度学习与RL的这种融合在处理高维状态空间方面发挥了作用,这有助于在各种复杂的任务中进行突破。
强化学习(RL)提供了一种通用方法,用于建模和培训AI代理,包括人类互动方案。在本文中,我们提出了Sharpie(hared Human-a i r einformention学习p latform for Iteractive e xperiments),以满足对一般框架的需求,以支持RL代理和人类的实验。它的模型设计由用于RL环境和算法库的多功能包装器组成,这是一个面向参与者的Web Interface,Lotogging Utilities,在流行云和参与者招聘平台上的部署。它使研究人员能够研究与人与RL药物之间的反应有关的各种研究问题,包括与交互式奖励规范和学习的研究,从人类的反馈,行动授权,偏好,用户模型,用户模型和人类团队中学习。该平台基于人类RL相互作用的通用界面,旨在标准化人类文本中RL的研究领域。
