摘要 - 强化学习(RL)已成为复杂环境中自动决策的有效范式。但是,在RL中,事件驱动的决策过程的集成仍然是一个挑战。本文介绍了一种新颖的体系结构,将离散事件监督(DES)模型与标准RL框架相结合,以创建混合决策系统。我们的模型利用了DES的能力来管理基于事件的动态,而RL代理对连续状态和行动的适应性,从而促进了以连续和离散事件为特征的系统中更强大,更灵活的控制策略。DES模型与RL代理一起运行,通过基于事件的见解来增强策略的性能,而环境的状态过渡则由机械模型约束。我们通过模拟证明了方法的功效,这些模拟显示出比传统RL实现的性能指标的改进。我们的结果表明,这种综合方法对从工业自动化到智能交通系统的应用有望在离散事件处理至关重要的情况下。索引术语 - 预言学习,离散事件超级访问控制,混合系统,自主决策,事件驱动的动态
摘要:我们提出了 RoboFlow,这是一个基于云的工作流管理系统,用于协调开发 AI 增强型机器人的流程。与大多数以流程为中心的传统机器人开发流程不同,RoboFlow 以数据为中心。这一显著特性使其特别适合开发以数据为核心的 AI 增强型机器人。更具体地说,RoboFlow 将整个机器人开发过程建模为 4 个构建模块(1. 数据处理、2. 算法开发、3. 回溯测试和 4. 应用程序适配),并与集中式数据引擎交互。所有这些构建模块都在统一的接口框架下进行容器化和编排。这样的架构设计大大提高了所有构建模块的可维护性和可重用性,并使我们能够以完全并行的方式开发它们。为了证明所开发系统的有效性,我们利用它来开发两个原型系统,分别名为“Egomobility”和“Egoplan”。 Egomobility 为各种移动机器人提供通用导航功能,而 Egoplan 则解决机器人手臂在高维连续状态和动作空间中的路径规划问题。我们的结果表明,RoboFlow 可以显著简化整个开发生命周期,并且相同的工作流程适用于众多智能机器人应用程序 2 。
摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
摘要 - 强化学习(RL)在各种计算机游戏和模拟中取得了一些令人印象深刻的成功。大多数这些成功都是基于代理可以从中学习的大量情节。在典型的机器人应用中,可行尝试的数量非常有限。在本文中,我们提出了一种应用于乒乓球机器人示例的样品效率RL算法。在乒乓球中,每个中风都有不同的位置,速度和旋转。因此,必须在高维连续状态空间上找到准确的回报。在几个试验中进行学习,该方法嵌入了我们的机器人系统中。通过这种方式,我们可以使用一个步骤的环境。状态空间在击球时间(位置,速度,旋转)时取决于球,而动作是击球时的球拍状态(方向,速度)。开发了一种基于参与者的确定性策略梯度算法,用于加速学习。我们的方法在模拟和在许多具有挑战性的场景中都具有竞争力。在200次培训发作中,无需预先培训即可获得准确的结果。呈现我们实验的视频可在https://youtu.be/uratdol6wpw上获得。
摘要。对足球等侵入性运动的分析具有挑战性,因为比赛情况在时间和空间上不断变化,多个智能体单独识别比赛情况并做出决策。以前使用深度强化学习的研究通常将球队视为单个智能体,并评估每个离散事件中持球的球队和球员。那么,在时空连续的状态空间中评估多个球员(包括远离球的球员)的动作是一项挑战。在本文中,我们提出了一种基于多智能体深度强化学习的单一整体框架中评估有球和无球足球运动员可能采取的动作的方法。我们考虑连续状态空间中的离散动作空间,模仿谷歌研究足球,并利用监督学习进行强化学习中的动作。在实验中,我们分析了与常规指标、赛季进球和专家比赛评分的关系,并展示了所提方法的有效性。我们的方法可以评估多名球员在整个比赛过程中如何连续移动,这很难离散化或标记,但对于团队合作、球探和球迷参与至关重要。
在计算最佳策略时使用较短的计划范围的折扣正则化是一个流行的选择,可以避免面对稀疏或嘈杂的数据时过度使用。通常将其解释为脱颖而出或忽略延迟的影响。在本文中,我们证明了折扣正则化的两种替代观点,这些观点暴露了意外后果并激发了新颖的正则化方法。在基于模型的RL中,在较低的折现因子下计划的行为就像先前的,具有更强的州行动对,并具有更多的过渡数据。从数据集中估算过过渡矩阵时,跨州行动对的数据集估算了不均匀的数据集时,这会导致性能。在无模型的RL中,折扣正则化等同于计划使用加权平均贝尔曼更新,在该计划中,代理计划似乎所有州行动对的值都比数据所暗示的更接近。我们的等价定理促使简单的方法通过在本地设置个人状态行动对而不是全球的参数来概括常规ization。我们证明了折扣正则化的失败以及如何使用我们的州行动特定方法在经验示例中使用表格和连续状态空间进行纠正。
摘要:电动汽车 (EV) 正在卢旺达推出,并因各种原因而变得颇具吸引力。例如,这些类型的车辆可以帮助减少空气污染和噪音排放。此外,鉴于卢旺达和世界各地的燃料资源价格上涨,它为内燃机提供了一种替代方案。本文介绍了一种专门用于优化为小型电动汽车提供服务的充电站设计的工具,利用该算法协助确定独立拖曳式充电站的规模。开发的工具基于 MathWorks 的工具箱 EventSim,该工具箱允许将离散事件(例如客户到达车站)的模拟与连续状态(例如充电过程的模拟)相结合。通过利用可再生能源的太阳能资源估算出所需的光伏电力。忍者。到达现有加油站的客户数量被标准化,以估计拖曳式车队的能源需求。提出泊松分布来模拟到达时的电池放电,并通过敏感性分析评估不同的相关参数,以确定它们对光伏充电站性能的影响。对于测试值,站点参数变化±25%,以确定关键设计参数对站点性能的影响,以及其他满意度指标,如平均等待时间和平均排队长度。光伏板增加25%,停电时间减少2.12%,而光伏板减少25%,停电时间增加2.18%。利用能源管理系统(EMS),等待时间减少了8%。
批处理增强学习(RL)旨在利用预收取的数据找到最大化动态环境中预期总奖励的最佳策略。现有方法需要对目标策略在状态或行动上或两者兼有的数据分布引起的分布所引起的分布上绝对连续的假设(例如,不存在非重叠区域)。我们提供了一种新的批次RL算法,该算法允许在离线数据分布和目标策略引起的分布之间的状态和动作空间(例如,在无限 - 休养者马尔可夫决策过程中都具有连续状态和动作之间的奇异性)。我们称我们的算法钢:奇异性吸引的增强学习。我们的算法是由对销售评估进行的新错误分析的动机,在该评估中,我们使用最大的平均差异以及分布强劲的优化,以表征由可能的奇异性引起的非政策评估的误差,并启用模型外额外的模型。通过利用悲观的思想,在某些技术条件下,我们为我们提出的算法提供了第一个有限样本的遗憾保证。与现有算法相比,只需仅需最少的数据覆盖假设即可提高批量RL的适用性和鲁棒性。另外,提出了一种几乎没有调谐的两步自适应钢。广泛的仿真研究和一个(半真实的实验实验)对我们方法在处理批处理RL中可能的奇异性方面的出色表现。
1. 简介 工厂可用性一直是化工过程设计和运行的一个重要考虑因素,因为它代表了正常运行时间的预期分数,直接影响盈利能力。在实践中,离散事件模拟工具用于检查不同维护和备件库存政策下几种不同冗余度的选定设计的可用性(Sharda and Bury,2008)。然而,通过模拟选择的最佳方案通常不是最优的,因为设计方案列表通常并不详尽。因此,考虑到操作因素,冗余设计的系统优化工具具有很强的动机。已经报道了几项关于设计阶段可靠性考虑的研究(Kuo and Wan(2007))。为了获得更全面的最佳设计,重要的是要考虑维护等操作因素对工厂可用性及其成本的影响(Ding and Kamaruddin(2015))。Alaswad 和 Xiang(2017)对具有离散或连续状态的随机恶化系统的基于条件的维护优化模型进行了回顾。 Pistikopoulos 等人 (2001) 和 Goel 等人 (2003) 制定了 MILP 模型,用于选择具有不同可靠性的单元以及针对固定系统配置的相应生产和维护计划。马尔可夫链是一种强大的数学工具,广泛用于捕捉系统在不同状态之间转换的随机过程。Shin 和 Lee (2016) 将采购系统的计划水平问题制定为马尔可夫决策过程,以解释来自交货时间和需求的外生不确定性。Lin 等人 (2012) 使用马尔可夫链对公用事业系统进行建模,并迭代执行 RAM(可靠性、可用性和可维护性)分析以确定最佳可靠性设计。
主动推理是理解生物智能的贝叶斯框架。其基本理论将感知和行动归结为一个单一的命令:最小化自由能。然而,尽管它在解释智能方面具有理论效用,但计算实现却仅限于低维和理想化的情况。在本文中,我们提出了一种神经架构,用于构建在复杂、连续状态空间中运行的深度主动推理代理,使用多种形式的蒙特卡罗 (MC) 采样。为此,我们介绍了一些对主动推理来说新颖的技术。这些包括:i) 通过 MC 树搜索选择自由能量最优策略,ii) 通过前馈“习惯性”网络近似该最优策略分布,iii) 使用 MC 丢失预测未来参数信念更新,最后,iv) 优化状态转换精度(一种高端注意力形式)。我们的方法使代理能够有效地学习环境动态,同时与基于奖励的对应者相比保持任务性能。我们在基于 dSprites 数据集的新玩具环境中说明了这一点,并证明主动推理代理会自动创建适合建模状态转换的解开表示。在更复杂的 Animal-AI 环境中,我们的代理(使用相同的神经架构)能够模拟未来的状态转换和动作(即计划),以显示奖励导向的导航 - 尽管暂时停止了视觉输入。这些结果表明,配备 MC 方法的深度主动推理提供了一个灵活的框架来开发受生物启发的智能代理,可应用于机器学习和认知科学。