摘要 — 顺序建模在离线强化学习 (RL) 中表现出色,其中决策转换器 (DT) 是最显著的代表之一,取得了显著的成功。然而,RL 轨迹具有与传统序列(例如文本或音频)不同的独特属性:(1)局部相关性,其中 RL 中的下一个状态在理论上仅由基于马尔可夫决策过程 (MDP) 的当前状态和动作决定,以及 (2) 全局相关性,其中由于轨迹的时间连续性,每个步骤的特征都与长期历史信息相关。在本文中,我们提出了一种新颖的动作序列预测器,名为 Mamba Decision Maker (MambaDM),其中 Mamba 有望成为序列建模范式的有前途的替代方案,因为它可以有效地建模多尺度依赖关系。特别是,我们介绍了一种新颖的混合器模块,它可以熟练地提取和集成输入序列的全局和局部特征,从而有效地捕捉 RL 数据集中的相互关系。大量实验表明,MambaDM 在 Atari 和 OpenAI Gym 数据集上实现了最佳性能。此外,我们通过实证研究了 MambaDM 的扩展规律,发现增加模型大小不会带来性能提升,但将 MambaDM 的数据集大小扩大 2 倍可以在 Atari 数据集上获得高达 33.7% 的得分提升。本文深入探讨了 MambaDM 在 RL 领域的序列建模能力,为未来在稳健高效的决策系统方面的进步铺平了道路。
poojamarbade13@gmail.com 6 摘要:大型语言模型 (LLM) 在生成式人工智能 (AI) 工具中的广泛采用引发了人们对用户隐私的重大担忧。为了应对这一挑战,我们提出了 Private ChatGPT,这是一种用于 LLM 的隐私保护模型。它专注于在数据管理和预处理期间保护用户隐私,并确保在训练过程中保留私人上下文。我们使用强化学习 (RL) 整合差异隐私和私人训练,以保护用户隐私同时保持实用性。我们的评估证明了差异隐私在隐私和模型性能之间取得平衡的有效性。关键词:隐私保护、基于 LLM(大型语言模型)、离线人工智能工具、学术、商业、自然语言 1。介绍 大型语言模型 (LLM) 的快速发展彻底改变了各个领域的自然语言生成,包括双体船、内容创作和自动写作。然而,这一进步带来了一个关键问题:用户隐私。LLM 具有强大的分析和生成文本的能力,无意中泄露了有关用户的敏感信息。在本文中,我们解决了基于 LLM 的离线人工智能工具中的隐私保护挑战。我们提出的模型 Priv Chat GPT 旨在在实用性和隐私之间取得微妙的平衡。通过使用强化学习 (RL) 集成差异隐私和私人训练,我们创建了一个强大的框架,既能保护用户数据,又能保持 LLM 的有效性。目的/目标 A.目的 本会议论文的目的是介绍和阐明一种突破性的解决方案,以解决将自然语言生成 (NLG) 技术(特别是大型语言模型 (LLM))的优势与
本文介绍了一个全面的基准测试套件,该套件是针对离线安全增强学习(RL)挑战的全面的,旨在促进培训和部署阶段中安全学习算法的发展和评估。我们的基准套件包含三个包:1)精心制作的安全政策,2)D4RL风格的数据集以及环境包装器,以及3)高质量的离线安全RL基线实施。我们采用有条不紊的数据收集管道,该管道由先进的安全RL算法启动,该管道有助于从机器人控制到自动驾驶的38个流行的安全RL任务中跨38个流行的安全RL任务的不同数据集的生成。我们进一步引入了一系列数据后处理过滤器,能够修改每个数据集的多样性,从而模拟各种数据收集条件。此外,我们还提供了普遍的离线安全RL算法的优雅且可扩展的实现,以加速该领域的研究。通过超过50000个CPU和800 GPU小时计算的广泛实验,我们评估和比较了这些基线算法在收集的数据集中的性能,从而提供了有关其优势,局限性和潜在改进领域的见解。我们的基准测试框架是研究人员和从业人员的宝贵资源,促进了在安全性应用中开发更健壮和可靠的离线安全RL解决方案。基准网站可在www.offline-saferl.org上找到。
摘要虽然模仿学习需要访问高质量的数据,但原则上应以类似或更好的方式在数据质量下进行类似或更好的表现。但是,当前的结果表明,离线RL的性能通常比模仿学习差,而且通常不清楚是什么避免了离线RL的表现。在这项工作中,我们旨在了解当前离线RL算法中的瓶颈。虽然离线RL的表现较差通常是在不完美的价值函数上表现出来,但我们还是问:在学习价值函数,策略或其他内容时,离线RL的主要瓶颈确实是真正的瓶颈吗?为了回答这个问题,我们对(1)价值学习,(2)策略提取和(3)脱机RL问题的策略概括从每个组件的“数据尺度”属性中分析,分析了这些组件如何影响性能。我们进行了两个令人惊讶的观察。首先,选择性提取算法的选择会影响离线rl Sigig的性能和可伸缩性,通常比其基本价值学习目标更重要。例如,广泛使用的价值加权回归目标(例如AWR)无法完全利用学习的价值函数,并且切换到行为调节的策略梯度目标(例如DDPG+BC)通常会导致性能和缩放行为的实质性改善。其次,离线RL的次优性能通常是由于对培训数据的支持,而不是分布状态的策略准确性。虽然大多数当前的离线RL算法并未明确解决此问题,但我们表明,使用次优的但高覆盖范围的数据或即时的策略提取技术可以有效解决实践中的策略概括问题。
在经验(深)RL研究中确实是这种情况,在这种情况下,算法通过与模拟环境相互作用与样品数据轨迹相互作用,从而发现了近乎最佳的策略。这里的目标非常明确:使用给定数量的计算找到一个良好的策略,其中包括算法的成本和模拟器的采样数据的成本。While this paradigm has led to impressive successes in difficult simulation tasks [ 75 , 87 ], it becomes increas- ingly clear that the above paradigm is insufficient for many potential applications we hope to apply RL to, in- cluding adaptive clinical trials [ 112 , 113 , 79 , 74 ], rec- ommendation systems and customer relationship manage- ment [ 114 , 1 ], online education [ 12 , 64 ], and 更多的。上述情况的一个共同点是,人类/用户/学生是“环境”的一部分,很难为人类的心理/生物学方面提出准确的模拟器。其中 -
摘要 - 按需(AMOD)系统的自主移动性是一种不断发展的运输方式,其中中央协调的自动驾驶汽车的舰队动态地服务了旅行请求。这些系统的控制通常被称为一个大型网络优化问题,而增强学习(RL)最近已成为解决该领域中开放挑战的一种有前途的方法。最近的集中式RL方法专注于从在线数据中学习,而忽略了实际运输系统中的每样本相互作用。为了解决这些限制,我们建议通过离线强化学习的镜头正式对AMOD系统进行正式控制,并使用仅离线数据学习有效的控制策略,这很容易为当前的移动性运营商提供。我们进一步研究了设计决策,并根据现实世界中移动性系统的数据提供了经验证据,表明了离线学习如何恢复(i)(i)(i)与在线方法表现出相同的AMOD控制策略,(ii)允许样品有效的在线微调和(iii)消除复杂的模拟环境的需求。至关重要的是,本文表明,离线RL是在经济临界系统(例如迁移率系统)中应用基于RL的SO的有希望的范式。
(通讯作者电子邮件:zhangyahui@ysu.edu.cn(Yahui Zhang))摘要以及智能转换系统(ITS)和网络技术的快速发展,车辆可以访问更丰富的交通数据,为现在更有效的驱动控制铺平了道路。提出了一种专门针对混合电动卡车导航复杂多相交场景的新型分层生态驾驶策略。最初,模拟场景旨在模拟逼真的卡车遵循场景。随后,使用安全离线深层确定性政策梯度(SDDPG)算法制定了高层卡车跟随策略。此策略完全使用了领先的车辆和交通信号数据的见解。具体来说,考虑安全约束的逻辑判断模块已集成到培训处理中,以最大程度地减少碰撞风险。此外,设置了安全奖励功能,以指导代理学习更安全的动作。转移到下层,使用深厚的增强学习(DRL)技术提出了能量管理策略。引入了独特的奖励成型功能,以有效地指导学习过程。最终,与动态编程(DP)方法相比,提出的方法表明,省油速度为97.46%。关键字:混合动力卡车,卡车跟随,SDDPG,能源管理策略
明尼苏达州劳工和工业部 (DLI) 部署了一项新技术,该技术将用于虚拟检查特定类型的项目。最初,只有楼梯升降椅安装将使用该技术进行检查。所提供的虚拟检查类型称为离线现场报告 (OFR),由安装人员进行,提交后由州检查员在线审查。该技术由 VuSpex 开发,他们的 OFR 产品称为 VuSpex Go。
在离线增强学习(RL)中,通过离散时间钟形方程更新值函数通常会由于可用数据范围有限而遇到挑战。这种限制源于Bellman方程,该方程无法准确预测未访问的状态的价值。为了解决这个问题,我们引入了一种创新的解决方案,该解决方案桥接了连续和离散的RL方法,利用了它们的优势。我们的方法使用离散的RL算法从数据集中得出值函数,同时确保该函数的第一个衍生衍生物与汉密尔顿 - 雅各布·贝尔曼在连续RL中定义的状态和动作的局部特征与状态和动作的局部特征一致。我们为确定性策略梯度方法和随机性政策梯度方法提供了实用算法。在D4RL数据集上进行的实验显示,合并一阶信息可显着改善离线RL问题的政策性能。
离线增强学习(RL)的最新进步强调了条件序列建模(CSM)的功能,该范例是一种基于历史轨迹和目标返回的范式,该范式学习了动作分布。然而,由于单个轨迹内的采样回报之间的不一致和在多个轨迹之间的最佳回报之间的不一致,这些方法通常与将最佳轨迹缝合在一起的最佳轨迹拼接在一起。幸运的是,动态编程方法(DP)方法通过利用价值函数来近似每个状态的最佳未来回报,提供解决方案,而这些技术容易出现不稳定的学习行为,尤其是在长期和稀疏回报的情况下。在这些见解的基础上,我们提出了Q值重新授权的变压器(QT),该变压器(QT)结合了变压器的轨迹建模能力与DP方法的最佳未来回报的可预测性。QT学习一个动作值函数,并将最大化行动值的术语整合到CSM的培训损失中,该损失旨在寻求与行为政策紧密相符的最佳动作。对D4RL基准数据集的经验评估证明了QT优于传统的DP和CSM方法,这突出了QT在离线RL中增强最新艺术的潜力。
