抽象的深入强化学习(DRL)已成功应用于以任务为导向的对话系统的对话政策。但是,现有的基于DRL的对话策略方法中的一个挑战是它们的非结构化状态行动表示,没有能力学习对话状态与行动之间的关系。为了减轻此问题,我们为以任务为导向的对话系统提出了图形结构化对话策略框架。更具体地说,我们使用一种无监督的方法来构建两个不同的两部分图。然后,我们基于与双分部分图节点的匹配对话子群生成与用户相关的和知识相关的子图。使用图形卷积网络的变体来编码对话子图。之后,我们使用双向封闭式周期单元(BGRU)和自我发项机制来获得高级历史状态表示,并采用神经网络来获得高级当前状态表示。两种状态表示形式被加入以了解对话策略的行动价值。用不同的DRL算法实施的实验表明,所提出的框架显着提高了对话策略的有效性和稳定性。
摘要 - 航空出租车延误对全球机场和航空公司造成不利影响,导致航空拥堵,空中交通管制员/飞行员工作量,错过的乘客连接以及由于过多的油耗而导致的不利环境影响。有效解决出租车延误需要随机和不确定的空中运营,涵盖飞机的推力,滑行道运动和跑道起飞。随着混合模式跑道运营的实施(同一跑道上的到达)以适应预计的交通增长,预计Airside操作的复杂性将大大增加。在增加的交通需求增加,发展有效的倒退控制(也称为出发计量)(DM)的情况下,政策是一个具有挑战性的问题。dm是一个空中拥塞管理程序,它控制着出发的回压时间,旨在通过将出租车等待时间转移到大门来减少出租车延误。在混合模式跑道操作下,DM还必须保持足够的跑道压力(跑道附近的出发队列进行起飞),以利用即将到来的飞机蒸汽内的可用出发插槽。虽然高压率可能会导致出发队列的延长,但导致出租车延迟的增加,但低压率可能导致到达到达的流之间空的空位,从而导致跑道吞吐量减少。这项研究介绍了基于混合模式跑道操作的基于深的增强学习(DRL)的DM方法。我们在马尔可夫决策过程框架中提出了DM问题,并使用新加坡樟宜机场表面运动数据模拟Airside操作并评估不同的DM策略。使用时空事件图鉴定出预测性空中热点,并作为对DRL代理的观察。我们的基于DRL的DM方法利用推回率作为代理的行动和奖励成型,以动态调节推力率,以改善跑道利用率和不确定性下的出租车延迟管理。基于对其他基线的基于DRL的DM策略进行基准测试,证明了我们方法的出色性能,尤其是在高流量密度方案中。在新加坡樟宜机场的典型一天中,总部位于DRL的DM平均减少了1-3分钟的峰值出租车时间,节省了26.6%的燃油消耗,并有助于更环保和可持续的Airside行动。
本研究提出了一种自学习算法,用于闭环缸唤醒控制,靶向较低的阻力和较低的升力弹力,并带有稀疏传感器信息的额外挑战,以深度加固学习(DRL)为起点。通过将传感器信号提升为动态特征(DFS),DRL性能可显着改善,该功能可以预测未来的流量状态。所得的基于DF的DRL(DF-DRL)自动在没有动态模型的情况下在工厂中学习反馈控制。结果表明,DF-DRL模型的阻力系数比基于直接传感器反馈的香草模型低25%。更重要的是,DF-DRL仅使用一个表面压力传感器,可以将阻力系数降低到雷诺数(RE)= 100时的最先进性能,并显着减轻了提升系数。因此,DF-DRL允许在不降低控制性能的情况下部署流量的稀疏感应。该方法在更复杂的流动场景下还表现出强大的鲁棒性感染,在RE = 500和1000时分别将阻力系数分别降低了32.2%和46.55%。此外,在三维湍流中,拖动系数在RE = 10 000的三维湍流中降低了28.6%。由于表面压力信息在现实情况下比流速信息更为直接,因此本研究为
摘要 - 许多现实世界的应用程序可以作为多机构合作问题,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习的出现(DRL)通过代理和环境的相互作用为多机构合作提供了一种有希望的方法。然而,传统的DRL解决方案在策略搜索过程中遭受了具有连续动作空间的多个代理的高维度。此外,代理政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低级个人控制,以进行有效的政策搜索。特别是,可以在高级离散的动作空间中学习多种代理的合作。同时,低级个体控制可以减少为单药强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将总体任务分解为子任务来降低学习复杂性。为了评估我们方法的效率,我们在合作巷更改方案中进行了现实世界中的案例研究。模拟和现实世界实验都显示了我们在碰撞速度和收敛速度中的优越性。索引条款 - 多机构合作;深入的强化学习;分层增强学习
摘要 - 在斜坡合并是自动驾驶中复杂的流行情况。由于驾驶环境的不确定性,大多数基于规则的模型无法解决此问题。在这项研究中,我们设计了一种深入的增强学习方法(DRL)方法,以解决不确定的场景中坡道合并问题,并修改双胞胎延迟的深层确定性策略梯度算法(TD3)的结构,使用长期短期内存(LSTM)基于时间信息选择一个动作。所提出的方法应用于坡度合并,并在城市流动性(SUMO)的模拟中进行了验证。结果表明,所提出的方法在不确定的TRAFFICEARIOS中执行明显更好的概括。索引术语 - 坡道合并,深度强化学习(DRL),长期记忆(LSTM),城市流动性的模拟(SUMO)
除了上述方法外,在改变环境条件和在线学习的情况下,增强学习(RL)可以具有更大的性能和适应性,这使其成为开发自动驾驶代理的重要方法。对于当前最新应用的状态,深入加固学习(DRL)是迄今为止最受接受和广泛使用的方法(Kiran等,2021)。这背后的主要原因是汽车控制的复杂性质,它需要一种足够精确的近似方法以在连续环境中操作车辆。Cutler&How(2016)的作品,Bhattacharjee等。(2018),Cai等。 (2020)和Orgován等。 (2021)表明,即使在环境中增加了随机元素,基于模型的和模型的DRL都可以解决简单,更复杂的漂移问题。 进一步增强了这些结果,Domberg等。 (2022)引入了一种可以沿任意轨迹漂移的代理,显示了假定的概括能力(2018),Cai等。(2020)和Orgován等。(2021)表明,即使在环境中增加了随机元素,基于模型的和模型的DRL都可以解决简单,更复杂的漂移问题。进一步增强了这些结果,Domberg等。(2022)引入了一种可以沿任意轨迹漂移的代理,显示了假定的概括能力
血糖(BG)控制涉及通过体外胰岛素注射将个人的BG保持在健康范围内,对于1型糖尿病患者来说,这是一项重要任务。但是,传统的患者自我管理繁琐且冒险。最近的研究致力于探索个性化和自动化的BG控制方法,其中深度强化学习(DRL)显示了潜力作为新兴方法。在本文中,我们使用药物浓度的指数衰减模型将BG控制问题的形式化转换为从PAE-POMDP(PAE-POMDP(PAE-POMDP)延长作用效应,可观察到的Markov决策过程)将药物效应的延迟和延长转换为MDP,并提出了一种新型的Multi-Step Drl基于基于多的基于基于多人的algorith的方法来解决问题。还使用了优先的体验重播(PER)采样方法。与单步自动化更新相比,多步学习更有效,并降低了偏见目标的影响。与同一训练环境中的基准相比,我们所提出的方法收敛更快,并获得更高的累积奖励,并改善了时间范围(TIR),在评估阶段,患者的BG的时间百分比在目标范围内。我们的工作验证了多步DRL在BG控制中的有效性,这可能有助于探索最佳的血糖控制措施并改善糖尿病患者的存活率。
我们考虑深度强化学习 (DRL) 领域的以下核心问题:如何使用隐式人类反馈来加速和优化 DRL 算法的训练?最先进的方法依赖于任何明确提供的人为反馈,需要人类的主动参与(例如,专家标记、演示等)。在这项工作中,我们研究了一种替代范式,其中非专家人类正在默默观察(和评估)与环境交互的代理。通过将电极放在人的头皮上并监测所谓的事件相关电位,人类对代理行为的内在反应被感知为隐式反馈。然后使用隐式反馈来增强代理在 RL 任务中的学习。我们开发了一个系统来获取并准确解码隐式人类反馈,特别是 Atari 类型环境中的状态-动作对的错误相关事件电位 (ErrP)。作为一项基线贡献,我们证明了使用脑电图 (EEG) 帽捕获人类观察者观察代理学习玩几种不同 Atari 游戏的错误潜力的可行性,然后适当地解码信号并将其用作 DRL 算法的辅助奖励函数,旨在加速其对游戏的学习。在此基础上,我们在工作中做出了以下新颖的贡献:(i)我们认为 ErrP 的定义可以在不同的环境中推广;具体来说,我们表明观察者的 ErrP 可以针对特定游戏进行学习,并且该定义可以按原样用于另一个游戏,而无需重新学习错误潜力。(ii)为了提高 ErrP 数据效率,我们提出了一个新的学习框架,将 DRL 的最新进展结合到基于 ErrP 的反馈系统中,允许人类仅在 RL 代理训练开始之前提供隐式反馈。 (iii)最后,我们将基于隐式人类反馈(通过 ErrP)的 RL 扩展到相当复杂的环境(游戏),并通过合成和真实用户实验证明了我们的方法的重要性。
对自动驾驶汽车(AV)的研究取得了显着的进步,而深度学习的最新进展(DL),尤其是在车辆感知堆栈上。尽管有一些令人鼓舞的结果和演示,但DL在车辆计划和控制堆栈中的应用仍然有限。深度强化学习(DRL)是一种在序列过程中生成控制策略的方法,并且能够自动从数据学习和适应数据,从而强大地应对不同的操作条件和任务。与传统的基于模型的控制方法相比,这提供了更高的性能计划或控制解决方案,该方法依赖于系统的数学模型。最近通过示例的DRL分解包括Alphastar(Arulkumaran等,2019),该模型旨在播放Starcraft II和端到端的自动驾驶汽车延续(Kendall等,2019)。
摘要本评论论文对重点介绍了机器人握把的挑战以及各种机器学习技术的有效性,尤其是那些利用深神经网络(DNNS)(DNN)和增强学习(RL)的挑战的全面分析。这篇评论的目的是通过在一个地方收集不同形式的深入学习(DRL)掌握任务来简化他人的研究过程。通过对文献的彻底分析,该研究强调了对机器人抓住的批判性质,以及DRL技术(尤其是软性批评(SAC)策略)如何在处理任务方面表现出很高的效率。这项研究的结果对机器人的更先进和有效的握把系统具有重要意义。在该领域进行的持续研究对于进一步增强机器人在处理复杂和挑战性任务(例如抓地力)方面的能力至关重要。