摘要 — 顺序建模在离线强化学习 (RL) 中表现出色,其中决策转换器 (DT) 是最显著的代表之一,取得了显著的成功。然而,RL 轨迹具有与传统序列(例如文本或音频)不同的独特属性:(1)局部相关性,其中 RL 中的下一个状态在理论上仅由基于马尔可夫决策过程 (MDP) 的当前状态和动作决定,以及 (2) 全局相关性,其中由于轨迹的时间连续性,每个步骤的特征都与长期历史信息相关。在本文中,我们提出了一种新颖的动作序列预测器,名为 Mamba Decision Maker (MambaDM),其中 Mamba 有望成为序列建模范式的有前途的替代方案,因为它可以有效地建模多尺度依赖关系。特别是,我们介绍了一种新颖的混合器模块,它可以熟练地提取和集成输入序列的全局和局部特征,从而有效地捕捉 RL 数据集中的相互关系。大量实验表明,MambaDM 在 Atari 和 OpenAI Gym 数据集上实现了最佳性能。此外,我们通过实证研究了 MambaDM 的扩展规律,发现增加模型大小不会带来性能提升,但将 MambaDM 的数据集大小扩大 2 倍可以在 Atari 数据集上获得高达 33.7% 的得分提升。本文深入探讨了 MambaDM 在 RL 领域的序列建模能力,为未来在稳健高效的决策系统方面的进步铺平了道路。
这项研究对三种高级深度强化学习模型进行了比较分析 - 深Q-Networks(DQN),近端策略优化(PPO)和Advantage Actor-Critic(A2C) - 仅在突破性的Atari游戏环境中。我们的研究旨在在单数,受控的环境中评估这些模型的性能和有效性。通过严格的实验,我们检查了每个模型在游戏动态条件下的学习效率,策略的发展和适应性。这些发现为这些模型在基于游戏的学习环境中的实践应用提供了关键的见解,并有助于更广泛地理解其在特定的,集中的场景中。代码可公开:github.com/neilus03/drl_comparative_study
这项研究对三种高级深度强化学习模型进行了比较分析 - 深Q-Networks(DQN),近端策略优化(PPO)和Advantage Actor-Critic(A2C) - 仅在突破性的Atari游戏环境中。我们的研究旨在在单数,受控的环境中评估这些模型的性能和有效性。通过严格的实验,我们检查了每个模型在游戏动态条件下的学习效率,策略的发展和适应性。这些发现为这些模型在基于游戏的学习环境中的实践应用提供了关键的见解,并有助于更广泛地理解其在特定的,集中的场景中。代码可公开:github.com/neilus03/drl_comparative_study
深度强化学习者经常面临有效协调感知和决策共同体的挑战,尤其是在具有高度感官输入的环境中,特征相关性各不相同。这项工作介绍了Sprig(使用内部游戏动力学的Spackelberg感知 - 预定学习学习),该框架将内部的感知互动建模为合作的Stackelberg游戏。在Sprig中,感知模块充当领导者,战略性地处理原始感觉状态,而策略模块则遵循,根据提取的功能做出决策。Sprig通过修改后的Bellman运营商提供了理由保证,同时保留了现代政策优化的好处。对Atari Beamrider环境的实验结果,通过其游戏理论提取和决策制定的游戏理论,获得了Sprig的有效性,比标准PPO提高了30%的回报。
已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。
本文介绍了Barlowrl,这是一种具有数据效率增强的学习代理,它与Barlow Twins一起使用DER(数据有效的雨弓)算法进行了自我监督的学习框架。barlowrl在Atari 100k基准上均优于DER及其对比度卷曲。barlowrl通过强制传播到整个空间来避免尺寸崩溃。这有助于RL算法利用统一扩散状态表示,最终导致表现出色。Barlow双胞胎与DER的集成增强了数据效率,并在RL任务中实现了卓越的性能。Barlowrl展示了合并自我监督的学习技术,尤其是非对抗性目标的潜力,以改善RL算法。关键词:深度强化学习;自学学习;数据效率
我们考虑深度强化学习 (DRL) 领域的以下核心问题:如何使用隐式人类反馈来加速和优化 DRL 算法的训练?最先进的方法依赖于任何明确提供的人为反馈,需要人类的主动参与(例如,专家标记、演示等)。在这项工作中,我们研究了一种替代范式,其中非专家人类正在默默观察(和评估)与环境交互的代理。通过将电极放在人的头皮上并监测所谓的事件相关电位,人类对代理行为的内在反应被感知为隐式反馈。然后使用隐式反馈来增强代理在 RL 任务中的学习。我们开发了一个系统来获取并准确解码隐式人类反馈,特别是 Atari 类型环境中的状态-动作对的错误相关事件电位 (ErrP)。作为一项基线贡献,我们证明了使用脑电图 (EEG) 帽捕获人类观察者观察代理学习玩几种不同 Atari 游戏的错误潜力的可行性,然后适当地解码信号并将其用作 DRL 算法的辅助奖励函数,旨在加速其对游戏的学习。在此基础上,我们在工作中做出了以下新颖的贡献:(i)我们认为 ErrP 的定义可以在不同的环境中推广;具体来说,我们表明观察者的 ErrP 可以针对特定游戏进行学习,并且该定义可以按原样用于另一个游戏,而无需重新学习错误潜力。(ii)为了提高 ErrP 数据效率,我们提出了一个新的学习框架,将 DRL 的最新进展结合到基于 ErrP 的反馈系统中,允许人类仅在 RL 代理训练开始之前提供隐式反馈。 (iii)最后,我们将基于隐式人类反馈(通过 ErrP)的 RL 扩展到相当复杂的环境(游戏),并通过合成和真实用户实验证明了我们的方法的重要性。
在许多现实世界中,代理商的奖励信号非常稀疏,这使得学习有效的奖励功能以进行奖励构成挑战。为了解决这个问题,我们的方法不仅可以通过非零奖励过渡,而且还采用半监督学习(SSL)技术(SSL)技术以及新的数据增强来学习轨迹空间代表性,从大多数过渡,从而提高奖励奖励Shaping Shaping shaping shaping shaping shaping shaping。Atari和机器人操作中的实验结果表明,我们的方法有效地将奖励概括为稀疏的奖励场景,与好奇心驱动的方法相比,达到更高的最佳分数表现。拟议的双熵数据增强增强了性能,显示出比其他增强方法的最佳分数提高15.8%。
为了使自主 AI 系统被接受和信任,用户应该能够理解系统的推理过程(即系统应该是透明的)。机器人技术具有独特的编程困难,因为系统需要将复杂的传感器输入(例如摄像机馈送和激光扫描)映射到输出(例如关节角度和速度)。深度神经网络的进步现在可以通过直接从高维传感器输入学习控制策略来取代费力的手工制作特征和控制代码。由于 Atari 游戏(这些功能首次得到展示)复制了机器人问题,因此它们非常适合研究人类如何理解和与未经明确编程的代理交互。我们展示了使用内部状态的对象显着性可视化使 DRLN 更加透明的计算和人类结果,并测试了通过目的论口头解释表达显着性的有效性。
美国知识经济 (AKE) 不是经济生产组织中注定的转变,也不是一种主要由受过高等教育的工人的政治要求所塑造的政治经济形式。它是一种政治共识,旨在创造经济繁荣和超越其他国家的经济优势,其中知识产权 (IP) 及其生产企业发挥着主导作用。AKE 发展的历史揭示了这一点。在 AKE 的形成时期,从 1980 年到 1994 年,知识产权生产者和一派新自由主义民主党人 (Atari 民主党人),而不是决定性的中产阶级选民,在重新认识美国政治经济机构以加速 AKE 转型方面发挥了关键作用。他们对 AKE 发展的看法本质上使民主党对不断上升的市场力量的态度复杂化,并继续影响党内关于反垄断执法和 AKE 项目本身有效性的当代争议。