尽管成功地将深入学习(RL)应用于现实世界中的问题(Mnih等人,2015年; Berner等。,2019年; Vinyals等。,2019年; Fawzi等。,2022; Bellemare等。,2020),越来越多的证据表明训练这些网络时会引起挑战和病理(Ostrovski等人。,2021; Kumar等。,2021a; Lyle等。,2022; Graesser等。,2022; Nikishin等。,2022; Sokar等。,2023; Ceron等。,2023)。特别是,已经表明,深度RL药物不足以利用网络的参数:Kumar等人。(2021a)证明存在隐式未参数化,Sokar等人。(2023)表明,训练期间有大量神经元和Graesser等。(2022)表明,稀疏训练方法可以使用很小的原始网络参数保持性能。
发表了深Q-Networks(DQN)[Mnih等。,2013年],从其人工智能(AI)冬季唤醒了增强学习(RL),这表明一般基于神经网络的算法可以在一系列复杂的任务中实现专家级的性能。在后来的几年中,深度神经网络的RL导致特工在Go Silver等人中击败了专业人士。[2017],Dota 2 Berner等。[2019],Starcraft 2 [Vinyals等。 ,2019年]以及更多。 因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。 同时,Openai Gym [Brockman等。 ,2016年]成为第一个广泛采用的普通API。 体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。[2019],Starcraft 2 [Vinyals等。,2019年]以及更多。因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。同时,Openai Gym [Brockman等。,2016年]成为第一个广泛采用的普通API。体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。
1 简介 使用神经网络 (NN) 学习行动策略 π 在游戏中非常成功 (Mnih 等人2013;Sil- ver 等人2018),并在 AI 规划中越来越受欢迎 (Is- sakkimuthu、Fern 和 Tadepalli 2018;Groshev 等人2018;Garg、Bajpai 和 Mausam 2019;Toyer 等人2020;Karia 和 Srivastava 2021)。策略 π 可以在动态环境中做出实时决策,只需根据当前状态对其进行评估即可获得下一步行动。然而,这种方法显然存在潜在的政策“缺陷”,即不良或致命的政策行为。测试(试图找到发生此类行为的情况)是解决这一问题的自然范例。自动测试用例生成可用于评估 π 的质量,并最终通过广泛的测试来证明 π 是可信的。先前关于顺序决策测试的研究控制环境行为(MDP 中的状态转换选择),并尝试找到满足故障条件 ϕ 的环境决策序列(例如,Dreossi 等人2015;Akazaki 等人2018;Koren 等人2018;Ernst 等人2019;Lee 等人2020)。但如果失败
强化学习(RL)借助深度神经网络中的广告,使多样化的学科中的重大分解。一些早期的亮点是在计算机游戏中(Mnih等,2015),国际象棋和GO(Silver等,2016)和机器人技术(Lillicrap等,2015; Haarnoja等,2018b)。最近的高光包括开发有效的算法,例如矩阵乘法(Fawzi等,2022)和分类(Mankowitz等,2023)。RL在天文学上也有一些应用。Telescope automation is closely related to robotics and RL can be used in telescope control including adaptive optics (Nousiainen et al., 2022; Landman et al., 2021; Nousiainen et al., 2021) and adaptive reflective surface control (Peng et al., 2022) as well as in observation scheduling (Jia et al., 2023a,b, 2022)。进一步向下数据流,RL已应用于射电天文数据处理管道(Yatawatta and Avruch,2021; Yatawatta,2023)进行超参数调整。将模范天文学视为从观察望远镜到科学家的数据流或信息,我们可以看到RL的更多应用以帮助和完善这种流程并激发该出版物。几种方法属于机器学习的伞(ML):监督学习是最常用的方法,在该方法中既可以赋予计算机的输入和所需的输出,以学习执行某个任务。无监督
强化学习(RL)(Sutton和Barto 2018)是一种基于抽样的学习控制器的方法。受动物行为模型的启发,RL代理与环境相互作用,并在数值奖励方面收到其性能的反馈,这些奖励会加强或惩罚某些行为。近年来,这种学习方法取得了令人印象深刻的结果(Mnih等人2015; Silver等。2016)。但是,无法精确捕获设计师在奖励信号中的意图可能会导致代理学习意外行为(Amodei等人。2016)。作为一种响应,正式语言(尤其是线性时间逻辑(LTL)和ω-规范语言)已被提出明确捕获学习目标。尽管这些语言取得了实际的成功(Hahn等人2019; Bozkurt等。2020),它们的理论复杂性是相互疏忽的。在本文中,我们提出并研究了一种基于模型的LTL和ω-型语言的近似RL算法。大概是正确的(PAC)学习(Valiant 1984)是一种正式化学习算法保证的框架:用户选择两个参数,ε> 0和δ> 0。学习算法是(有效的)PAC如果将其转换为ε接近最佳的溶液,使用多项式样本数量至少为1-δ。在RL中,已经提出了许多PAC学习算法的折扣和平均奖励(Kakade 2003; Brafman和
1 简介 机器学习 (ML) 模型广泛应用于许多实际应用的决策过程。现代 ML 方法的快速发展、实际成就和整体成功 [LeCun et al. , 2015; Jordan and Mitchell, 2015; Mnih et al. , 2015; ACM, 2018] 保证了机器学习将作为一种通用计算范式盛行,并将找到越来越多的实际应用,其中许多与我们生活的各个方面有关。不幸的是,ML 模型有时会灾难性地失败 [Zhou and Sun, 2019; CACM Letters to the Editor, 2019]。它们还可能由于模型中的偏见(例如种族、性别、年龄)而支持糟糕的决策 [Angwin et al. , 2016]。由于脆弱性,它们的决策可能会令人困惑 [Szegedy et al. , 2017]。 ,2014;Goodfellow 等人,2015]。因此,迫切需要了解 ML 模型的行为,分析模型(或用于训练模型的数据)的(潜在)故障,对其进行调试并可能进行修复。这引起了人们对验证 ML 模型操作的兴趣日益浓厚 [Ruan 等人,2018;Narodytska,2018;Narodytska 等人,2018b;Katz 等人,2017],同时也激发了旨在设计可解释人工智能(XAI)方法的努力 [Ribeiro 等人,2018;Lundberg 和 Lee,2017;Ignatiev 等人,2018;Narodytska 等人,2018a;Ribeiro 等人, 2016;伊格纳季耶夫等人。 , 2019a;
在自动股票交易中使用增强学习(RL)由于其潜力通过直接从市场数据中学习来优化交易策略而引起了重大兴趣。该领域的早期工作以传统机器学习技术的基础为基础,朝着能够与财务环境互动的更具动态的模型迈进。Mnih等人做出了开创性的贡献。(2015)带有深Q-Networks(DQN),它为RL代理打开了在具有较大州空间(例如金融市场)环境中处理复杂决策的大门。这一进步激发了研究人员将DQN和其他RL算法应用于股票市场,在该股市中,代理商必须学会在不确定的不确定条件下做出买卖,出售或执行决定。Moody和Saffell(2001)的研究首先证明了将RL应用于直接股票交易的可行性。他们的工作将交易任务视为一个顺序决策过程,为将来的基于RL的系统奠定了基础,以优化累积回报。后来,诸如近端政策优化(PPO)和深层确定性政策梯度(DDPG)等算法已越来越多地应用于金融市场。这些算法,由Schulman等人介绍。(2017)和Lillicrap等。(2016)分别提供了在具有连续行动空间的环境中提高稳定性和性能,这对于必须精确做出交易决策的金融市场至关重要。总而言之,关于使用加强学习的自动股票交易的文献已取得了长足的进步,尤其是随着深度学习和高级RL算法的出现。虽然基于RL的代理商展示了超过传统方法的潜力,与数据质量,风险管理,计算复杂性以及对实时市场状况的适应性相关的挑战仍然是积极研究的领域。
机器学习研究人员经常关注人类水平的表现,尤其是在游戏中的表现(Mnih 等人,2015 年)。然而,在这些应用中,人类行为通常被简化为性能图上的一个简单点。认知科学,特别是学习和决策理论,可以掌握解开这个点背后秘密的钥匙,从而进一步了解人类认知和智能算法的设计原理(Lake、Ullman、Tenenbaum 和 Gershman,2017 年)。然而,认知实验通常侧重于相对简单的范式。我们相信,现在是认知科学领域研究人员齐聚一堂、讨论和推动使用游戏来研究和理解人类认知的范式的好时机(Opheusden 等人,2021 年;Opheusden 和 Ma,2019 年)。因此,我们的研讨会将由不同的演讲者组成,介绍他们目前对游戏的研究,包括文字游戏(Hartshorne、Tenenbaum 和 Pinker,2018 年)、物理游戏(Allen、Smith 和 Tenenbaum,2020 年)、社交游戏(Wu 等人,2020 年)和复杂的强化学习环境(Kosoy 等人,2020 年;S¸ims¸ek、Algorta 和 Kothiyal,2016 年),以及游戏在他们研究中的潜在未来应用。虽然传统的实验室实验一直是研究认知的主要数据来源,但互联网提供了收集大几倍的数据集的机会(Griffiths,2014 年)。全球有成千上万的玩家玩在线游戏,它们不仅为我们提供了大数据集,还可以让我们深入了解传统上难以在实验室中收集的人类行为 - 例如数百小时的特定任务交互(Stafford & Dewar,2014)。游戏的另一个有趣方面是它们能够更紧密地模拟现实世界。通过使用物理游戏引擎,研究人员可以做出精确、可量化的比较,
2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-