工程设计自动化可以表述为马尔可夫决策过程 (MDP)。工程师提供结构的初始几何形状,设置负载并允许改变几何形状的操作,指定优化目标(例如最小化重量、最大化刚度),然后开始训练模型。训练结束后,在推理阶段,工程师得到最终设计。生成式人工智能的最新发展可以增强这一过程。
深度强化学习(RL)在某些环境中令人印象深刻,而在其他环境中却在灾难性上失败。理想情况下,RL理论应该能够理解为什么是这样,即范围可预测实践绩效。不幸的是,当前的理论还没有这种能力。我们通过引入一个新的数据集B Ridge将标准深度RL算法与先前的样本复杂性界限进行比较。它由155个确定性MDP组成,来自共同的深度RL基准,以及它们相应的表格表示,这使我们能够准确地计算实例依赖性界限。我们选择专注于确定性环境,因为它们具有随机环境的许多有趣属性,但更容易分析。使用B Ridge,我们发现先前的界限与Deep RL成功与失败时相关,而是发现了一个令人惊讶的属性。当随机策略下具有最高Q值的行动时,最佳策略也具有最高的Q值(即当对随机策略的Q函数上贪婪是最佳的)时,深度RL倾向于成功;当他们没有的时候,深度RL往往会失败。我们将此属性概括为一个新的MDP的复杂度度量,我们称之为有效的地平线,该范围与该MDP中需要多少个lookahead搜索步骤,以确定下一个最佳动作,当叶子节点随机推出评估时。使用BRIDGE,我们表明,基于Horizon的有效界限比在四个指标之间的先前样品复杂性界限更紧密地反映了PPO和DQN的经验性能。我们还发现,与现有界限不同,有效的视野可以预测使用奖励成型或预训练的勘探政策的影响。我们的代码和数据可在https://github.com/cassidylaidlaw/effective-horizon上找到。
两种常见的顺序决策方法是人工智能规划 (AIP) 和强化学习 (RL)。每种方法都有优点和缺点。AIP 具有可解释性,易于与符号知识集成,并且通常很高效,但需要预先指定逻辑域,并且对噪声敏感;RL 只需要指定奖励,并且对噪声具有鲁棒性,但样本效率低下,不易获得外部知识。我们提出了一种将高级规划与 RL 相结合的综合方法,保留了可解释性、迁移和效率,同时允许对低级规划操作进行鲁棒学习。我们的方法通过在 AI 规划问题的状态转换模型和马尔可夫决策过程 (MDP) 的抽象状态转换系统之间建立对应关系,从 AIP 运算符定义分层强化学习 (HRL) 中的选项。通过添加内在奖励来学习选项,以鼓励 MDP 和 AIP 转换模型之间的一致性。我们通过比较 MiniGrid 和 N 室环境中 RL 和 HRL 算法的性能来展示我们的集成方法的优势,展示了我们的方法相对于现有方法的优势。
IDC 机房内的计算机设备会产生热量,对热量、湿度和灰尘敏感,同时还需要满足各种高弹性和故障转移要求。在严格的公差范围内保持稳定的温度和湿度对于 IT 系统的可靠性至关重要。美的可以提供这种精密空调,Micool 和 MDP 系列。它们可以全天 24 小时在严格的公差范围内控制温度、湿度和颗粒过滤,并且可以远程监控。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
涉及人类与自动化系统交互的任务变得越来越普遍。由于人类行为的不确定性以及由于人为因素而导致失败的可能性很高,这种集成系统应在必要时通过调整其行为做出智能反应。设计高效交互驱动系统的一种有前途的途径是混合主动范式。在这种情况下,本文提出了一种学习混合主动人机任务模型的方法。建立可靠模型的第一步是获取足够的数据。为此,我们开展了一项众包活动,并根据收集到的数据训练学习算法,以对人机任务进行建模并使用马尔可夫决策过程 (MDP) 优化监督策略。该模型考虑了人类操作员在交互过程中的行为以及机器人和任务的状态。一旦学习了这样的模型,就可以根据代表任务目标的标准优化监督策略。本文中的监督策略涉及机器人的运行模式。基于 MDP 模型的模拟表明,不确定性规划求解器可用于根据人机系统的状态调整机器人的模式。机器人运行模式的优化似乎能够提高团队的表现。因此,来自众包的数据集是一种有用的材料
模仿学习使代理可以在绩效指标未知并且未指定奖励信号时从专家演示中学习。标准模仿方法通常不适用于学习者和专家的参议员能力不匹配和示威的情况,并被未观察到的混杂偏见污染。为了应对这些挑战,已追求因果模仿学习的最新进步。但是,这些方法通常需要访问可能并非总是可用的基本因果结构,从而带来实际挑战。在本文中,我们研究了使用部分识别的规范马尔可夫决策过程(MDP)内的强大模仿学习,即使在系统动力学不是从混杂的专家演示中确定系统动力学的情况下,也允许代理商实现专家性能。特定的,首先,我们从理论上证明,当MDP中存在未观察到的混杂因素(UCS)时,学习者通常无法模仿专家的表现。然后,我们在部分能够识别的设置中探索模仿学习 - 从可用的数据和知识中,转移分布或奖励功能是无法确定的。增强了著名的Gail方法(Ho&Ermon,2016年),我们的分析导致了两种新颖的因果模仿算法,这些算法可以获得有效的政策,以确保实现专家绩效。
强化学习是一种常用技术,用于在复杂问题解决的决策支持系统中优化目标。当这些系统影响个人或群体时,反思公平是很重要的。在实践中绝对公平是无法实现的,我们提出了一个框架,该框架允许平衡差异公平概念与主要目标。为此,我们以顺序公平的概念来制定群体和个人公平。首先,我们提出了一个扩展的马尔可夫决策过程,即MDP,明确意识到个人和群体。接下来,我们根据此𝑓MDP对公平概念进行形式化,这使我们能够评估主要目标以及对用户重要的公平概念,采用多目标加强学习方法。为了评估我们的框架,我们考虑了两种情况,这些情况需要绩效折衷的不同方面:雇用和欺诈检测。工作招聘的目标是组成强大的团队,同时为类似的个人申请人和社会团体提供平等的待遇。欺诈检测中的权衡是检测欺诈性转移的必要性,同时为签发交易的客户的负担很公平。在此框架中,我们进一步探讨了距离指标对个人公平性的影响,并强调了历史规模对公平计算的影响以及通过探索获得的公平性。
我们研究确定与电网连接的光伏 (PV) 系统中电池储能系统 (BESS) 管理最佳策略的问题,其中负载的随机电力需求由三个来源满足:电网、光伏能源和 BESS。BESS 用于存储光伏系统产生的多余能量以供日后使用,或在分时电价 (TOU) 较低时从电网购买能源。目标是确定 BESS 的最佳充电/放电计划,以便最大限度地降低从电网购买能源的长期成本。通过使用周期性随机过程的概率模型来捕获负载和光伏能源的随机变化,并使用历史数据估计参数。优化问题是在周期性折现马尔可夫决策过程 (MDP) 框架下制定的,问题制定包括电池和太阳能电池板的老化效应。在线优化问题是通过采用针对周期性 MDP 定制的策略迭代方法来解决的。所提出的在线调度算法提供 24 小时周期性策略,其中系统模型每天根据前一天的负载和光伏能量以滚动方式更新。模拟结果表明,与没有光伏和 BESS 的传统系统相比,所提出的算法可以实现每年 41.6% 的电费减少,从而确定了安装 BESS 和光伏系统的价值。