摘要传统上,近似动态编程用于对话产生,通过行动采样来改进贪婪的政策,因为自然语言动作空间很大。然而,由于具有高动作值的合格响应的稀疏性,这种做法效率低下,这会导致随机抽样持续的较弱的改善。本文介绍了理论分析和实验,揭示了对话策略的性能与采样大小正相关。为了克服这一局限性,我们引入了一种新型的双重粒度Q-功能,该功能探讨了干预采样过程的最有希望的响应类别。我们的方法根据粒状层次结构提取行动,从而在较少的政策迭代中实现了最佳效果。此外,我们使用离线RL,并从旨在捕捉人类互动中情感细微差别的多种奖励功能中学习。实证研究表明,我们的算法在自动指标和人类评估之间优于基准。进一步的测试表明,我们的算法既具有解释性又具有可控性,并且产生了具有更高预期奖励的响应。
摘要 - 在本文中,我们提出了一种基于通信的动作空间增强D-MARL探索算法,以提高以占用网格图为代表的未知环境的绘制效率。通常,在探索大型和非结构化环境时,自主系统之间的通信至关重要。在这样的真实世界情景中,数据传输受到限制,并且在很大程度上依赖于代理间接近性和自主平台的属性。在拟议的方法中,每个代理的策略都通过利用异构代理近端策略优化算法进行优化,以自主选择是交流还是探索环境。为实现这一目标,通过整合代理间的交流和探索来提出多种新颖的奖励功能。调查的方法旨在提高映射过程中的效率和鲁棒性,最大程度地减少勘探重叠并防止代理碰撞。已经将接受不同奖励功能的D-MARL政策进行了比较,以了解不同的奖励术语对同质代理人的协作态度的影响。最后,提供了多个模拟结果以证明所提出的方案的功效。
将增强学习(RL)应用于序列生成模型,可以直接优化长期校正(例如BLEU和人类反馈),但通常会在动作序列的空间序列上进行大规模抽样。这是序列产生问题(例如机器变速器)的实践所带来的计算挑战,在那里我们经常处理较大的动作空间(例如词汇表)和长长的动作序列(例如,翻译)。在这项工作中,我们引入了两阶段的采样和dy-namic抽样方法,以通过RL在训练序列产生模型期间提高采样效率。我们就传统的发电任务进行了尝试,包括机器翻译和抽象性摘要。此外,我们通过使用奖励模型训练大型语言模型来评估人类反馈(RLHF)中的RL的AP。实验结果表明,基于ASRL的有效采样的RL可以在训练效率和记忆消耗方面均超过所有基准。值得注意的是,ESRL在强大的增强,最低风险训练和近端政策优化方法上产生一致的性能。该代码可在https:// github上找到。com/wangclnlp/deepspeed-chat-extension/示例/esrl。
摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
由于固有的波动,风能整合到大规模的网格中会带来不稳定和其他安全风险。在本研究中,提出了使用多代理深钢筋学习,风力涡轮机(WT)的新协调控制策略和混合动力储能系统(HESS)是为了进行风能平滑的目的,其中HESS与转子动能和风力涡轮机的旋翼动能结合在一起。首先,通过自适应变化模式分解(VMD)预测风力发电量并分解为高,中和低频组件。然后,通过多代理双层列表深层确定性策略梯度算法(MATD3)进行高频和中频的参考功率的最佳二级分配,以平滑功率输出。为了提高学习的勘探能力,将一种新型的α-状态lévy噪声注入了MATD3的动作空间,并动态调节了噪声。模拟和RT-LAB半物理实时实验结果表明,提出的控制策略可以合理地充分利用WT和HESS组合生成系统的平滑输出功率,延长储能元件的寿命并降低WT的磨损。
摘要:通过加强学习的自主驾驶模型的发展已获得了重大的吸引力。但是,开发避免障碍系统仍然是一个挑战。具体来说,在导航障碍物的同时优化路径完成时间是一个未经证实的重新搜索区域。Amazon Web Services(AWS)Deepracer成为一种强大的基础架构,用于工程和分析自主模型,为解决这些复杂性提供了强大的基础。这项研究调查了训练端到端自动驾驶模型的可行性,该模型专注于使用AWS Deepracer自动赛车平台上的强化学习避免障碍。对自主驾驶方法和机器学习模型体系结构进行了全面的文献综述,特别关注对象避免对象,然后进行动手实验和培训数据的分析。此外,比较了传感器选择,奖励功能,动作空间和训练时间对自主障碍避免任务的影响。最佳配置实验的结果表明,与基线配置相比,障碍物避免性能的显着改善,碰撞率降低了95.8%,而完成试验电路的时间则减少了约79%。
摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
摘要:我们提出了 RoboFlow,这是一个基于云的工作流管理系统,用于协调开发 AI 增强型机器人的流程。与大多数以流程为中心的传统机器人开发流程不同,RoboFlow 以数据为中心。这一显著特性使其特别适合开发以数据为核心的 AI 增强型机器人。更具体地说,RoboFlow 将整个机器人开发过程建模为 4 个构建模块(1. 数据处理、2. 算法开发、3. 回溯测试和 4. 应用程序适配),并与集中式数据引擎交互。所有这些构建模块都在统一的接口框架下进行容器化和编排。这样的架构设计大大提高了所有构建模块的可维护性和可重用性,并使我们能够以完全并行的方式开发它们。为了证明所开发系统的有效性,我们利用它来开发两个原型系统,分别名为“Egomobility”和“Egoplan”。 Egomobility 为各种移动机器人提供通用导航功能,而 Egoplan 则解决机器人手臂在高维连续状态和动作空间中的路径规划问题。我们的结果表明,RoboFlow 可以显著简化整个开发生命周期,并且相同的工作流程适用于众多智能机器人应用程序 2 。
摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
我们研究了脱颖而出的强化学习(RL),在该政策上,该政策在源领域进行培训并部署到不同的目标领域。我们旨在通过在线分布强大的马尔可夫决策过程(DRMDP)来解决这一问题,其中学习算法在源域中与源域进行了积极相互作用,同时寻求最佳的动态,这是在源源域不确定的过渡域的不确定性集合之内的最佳动态。我们介绍了对在线DRMDP的首次研究,其功能近似是偏外的RL。我们发现DRMDPS的双重公式可以诱导非线性,即使标称过渡内核是线性的,导致误差传播。通过使用总变化差异设计D型矩形不确定性集,我们删除了此附加的非线性 - 并绕过误差传播。然后,我们引入了DR-LSVI-UCB,这是第一个具有近似功能的动力学RL的效率高效的在线DRMDP算法,并建立了独立于状态和动作空间大小的多项式次优界限。我们的工作迈出了对具有线性函数近似的在线DRMDP的可证明效率的第一步。最后,我们通过不同的数字实验来证实DR-LSVI-UCB的性能和鲁棒性。
