能源管理问题(EMP)一直是能源互联网(EI)优化运行中广泛研究的课题。然而,能源网络规模的快速增长和分布式可再生能源发电(DRG)的渗透给能源管理带来了新的挑战。因此,针对由We-能源(WE)组成的大规模EI,提出了一种基于数字孪生(DT)的并行能源管理策略。首先,提出了一个并行能源管理框架。通过建立这种三重并行结构,可以实时观察能源网络的状态,从而能够灵活响应DRG的波动和能源的即插即用。优化模型考虑了废弃的可再生能源,促进了可再生能源的利用。然后,提出了一种多时间尺度优化策略来处理多能源网络的不同时间尺度。此外,为了更好地获取和处理信息并避免维数灾难,提出了一种基于DT的深度Q学习算法(DQN)。最后,与传统的基于利益共识的策略相比,仿真验证了基于DT的并行能源管理策略的有效性。
在紧急情况下,确保居住者从建筑物中快速而安全的疏散至关重要。传统的疏散计划通常依赖于可能无法很好地适应环境动态条件的静态路线,例如落下物体或开火阻碍。本文提出了增强学习(RL)的创新应用,以开发动态疏散路线指导系统,该系统可实时适应不断变化的条件。我们采用深层Q-NETWORKS(DQN)和近端策略优化(PPO)来根据实时数据优化疏散策略。我们的系统旨在最大程度地减少疏散时间,并通过随着环境的变化而动态调整路线来提高撤离人员的安全性。我们将基于RL的系统与模拟环境中的传统静态疏散计划进行了比较,这些环境包括不同的复杂性,例如不同的建筑布局和火灾传播模式。我们的结果表明,RL方法可以胜过静态方法,尤其是在具有高度不可预测性的情况下。这项研究通过证明机器学习在关键情况下增强安全性的潜力来促进紧急管理。
1DRPL &DKQ LV WKH -XVWLFH $QWKRQ\ 0 .HQQHG\ 'LVWLQJXLVKHG 3URIHVVRU RI /DZ 1DQF\ / %XF ¶ 5HVHDUFK 3URIHVVRU LQ 'HPRFUDF\ DQG (TXLW\ DQG &R 'LUHFWRU )DPLO\ /DZ &HQWHU DW WKH 8QLYHUVLW\ RI 9LUJLQLD 6FKRRO RI /DZ 6RQLD 0 6XWHU LV 7KH .DKDQ )DPLO\ 5HVHDUFK 3URIHVVRU RI /DZ )RXQGLQJ 'LUHFWRU +HDOWK /DZ ,QLWLDWLYH 7KH *HRUJH :DVKLQJWRQ 8QLYHUVLW\ /DZ 6FKRRO :H WKDQN %DUEDUD 3IHIIHU %LOODXHU DQG WKH &KLFDJR .HQW /DZ 5HYLHZ IRU RUJDQL]LQJ VXFK DQ DPD]LQJ FRQIHUHQFH 7KDQNV DOVR WR 3URIHVVRU %LOODXHU DQG WKH FRQIHUHQFH SDUWLFLSDQWV DQG WR +DQN *UHHO\ DQG WKH SDUWLFLSDQWV RI WKH 6WDQIRUG /DZ DQG %LRVFLHQFHV :RUNVKRS IRU WKHLU FRPPHQWV RQ DQ HDUOLHU GUDIW )LQDOO\ WKDQNV WR 0DU\ .DWH +XQWHU *HUPDLQH /HDK\ $OH[DQGUD 0DUVKDOO +HDWKHU 6NUDEDN DQG 6RSKLH /HII IRU WKHLU H[FHOOHQW UHVHDUFK DVVLVWDQFH
1DRPL &DKQ LV WKH -XVWLFH $QWKRQ\ 0 .HQQHG\ 'LVWLQJXLVKHG 3URIHVVRU RI /DZ 1DQF\ / %XF ¶ 5HVHDUFK 3URIHVVRU LQ 'HPRFUDF\ DQG (TXLW\ DQG &R 'LUHFWRU )DPLO\ /DZ &HQWHU DW WKH 8QLYHUVLW\ RI 9LUJLQLD 6FKRRO RI /DZ 6RQLD 0 6XWHU LV 7KH .DKDQ )DPLO\ 5HVHDUFK 3URIHVVRU RI /DZ )RXQGLQJ 'LUHFWRU +HDOWK /DZ ,QLWLDWLYH 7KH *HRUJH :DVKLQJWRQ 8QLYHUVLW\ /DZ 6FKRRO :H WKDQN %DUEDUD 3IHIIHU %LOODXHU DQG WKH &KLFDJR .HQW /DZ 5HYLHZ IRU RUJDQL]LQJ VXFK DQ DPD]LQJ FRQIHUHQFH 7KDQNV DOVR WR 3URIHVVRU %LOODXHU DQG WKH FRQIHUHQFH SDUWLFLSDQWV DQG WR +DQN *UHHO\ DQG WKH SDUWLFLSDQWV RI WKH 6WDQIRUG /DZ DQG %LRVFLHQFHV :RUNVKRS IRU WKHLU FRPPHQWV RQ DQ HDUOLHU GUDIW )LQDOO\ WKDQNV WR 0DU\ .DWH +XQWHU *HUPDLQH /HDK\ $OH[DQGUD 0DUVKDOO +HDWKHU 6NUDEDN DQG 6RSKLH /HII IRU WKHLU H[FHOOHQW UHVHDUFK DVVLVWDQFH
我们提出了一种方法,旨在优化穿越敌方高射炮占领的飞行走廊的飞行路径。这与穿越完全或部分由此类枪支控制的空域的所有类型的飞机、导弹和无人机相关。为此,我们使用 Q 学习 - 一种强化(机器)学习 - 它试图通过重复的半随机飞行路径试验找到避开高射炮的最佳策略。Q 学习可以在不直接对高射炮进行建模的情况下产生穿越敌方火力的最佳飞行路径。仍然需要对手的反应,但这可以来自黑盒模拟、用户输入、真实数据或任何其他来源。在这里,我们使用内部工具来生成防空火力。该工具模拟由火控雷达和卡尔曼飞行路径预测滤波器引导的近防武器系统 (CIWS)。Q 学习还可以通过神经网络(即所谓的深度 Q 学习 (DQN))进行补充,以处理更复杂的问题。在这项工作中,我们使用经典 Q 学习(无神经网络)展示了一个防空炮位的亚音速飞行走廊通行结果。
摘要——空间非合作物体的主动视觉跟踪对于未来智能航天器实现空间碎片清除、小行星探索、自主交会对接具有重要意义。然而,现有的工作通常将此任务视为不同的子问题(例如图像预处理、特征提取和匹配、位置和姿态估计、控制律设计)并单独优化每个模块,这些模块是琐碎且次优的。为此,我们提出了一种基于 DQN 算法的端到端主动视觉跟踪方法,称为 DRLAVT。它可以仅依靠彩色或 RGBD 图像来引导追逐航天器接近任意空间非合作目标,其性能明显优于采用最先进的 2D 单目跟踪器 SiamRPN 的基于位置的视觉伺服基线算法。使用不同的网络架构、不同的扰动和多个目标进行的大量实验证明了 DRLAVT 的先进性和鲁棒性。此外,我们进一步证明我们的方法确实通过数百次反复试验利用深度强化学习学习到了目标的运动模式。
我们提出了一种方法,旨在优化穿越敌方高射炮占领的飞行走廊的飞行路径。这适用于穿越完全或部分由此类枪支控制的空域的各种飞机、导弹和无人机。为此,我们使用 Q 学习 - 一种强化(机器)学习 - 它试图通过重复的半随机飞行路径试验找到避开高射炮的最佳策略。Q 学习可以在不直接模拟高射炮的情况下产生穿越敌方火力的最佳飞行路径。仍然需要对手的响应,但这可以来自黑盒模拟、用户输入、真实数据或任何其他来源。在这里,我们使用内部工具来生成高射炮火力。该工具模拟由火控雷达和卡尔曼飞行路径预测滤波器引导的近距离武器系统 (CIWS)。Q 学习还可以补充神经网络 - 所谓的深度 Q 学习 (DQN) - 来处理更复杂的问题。在这项工作中,我们使用经典 Q 学习(无神经网络)展示了亚音速飞行走廊通过一个高射炮位置的结果。
本文使用背面计划研究了一种新的基于模型的强化学习方法:混合(近似)动态编程更新和无模型更新,类似于DYNA架构。带有学习模型的背景计划通常比无模型的替代方案(例如Double DQN)差,即使前者使用的记忆和计算更大。基本问题是,学到的模拟可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景计划限制为一组(摘要)子目标,并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法在计算上更有效,自然地包含了时间抽象,以进行更快的长途径计划,并避免完全学习过渡动态。我们表明,我们的GSP算法可以从抽象空间中传播价值,以帮助各种基础学习者在不同的域中更快地学习显着的速度。关键字:基于模型的增强学习,时间抽象,计划
摘要 - 通过与环境的持续互动,基于实时反馈奖励信号不断优化决策,表明了强大的适应性和自学能力。近年来,它已成为实现机器人自动导航的关键方法之一。在这项工作中,引入了一种基于强化学习的自动机器人导航方法。我们使用深Q网络(DQN)和近端策略优化(PPO)模型通过机器人与环境之间的持续互动以及具有实时反馈的奖励信号来优化路径计划和决策过程。通过将Q值函数与深神经网络相结合,深Q网络可以处理高维状态空间,从而在复杂的环境中实现路径计划。近端策略优化是一种基于策略梯度的方法,它使机器人能够通过优化策略功能来更有效地探索和利用环境信息。这些方法不仅可以提高机器人在未知环境中的导航能力,还可以增强其适应性和自学能力。通过多个培训和仿真实验,我们在各种复杂的情况下验证了这些模型的有效性和鲁棒性。
摘要摘要摘要:摘要:DQN之类的深强化学习方法的学习过程和工作机制不透明,并且无法感知其决策基础和可靠性,这使该模型的决策高度可疑,并且极大地限制了深入强化学习的应用程序场景。要解释智能代理的决策机制,本文提出了基于梯度的显着性图生成算法SMGG。它使用高级卷积层生成的特征图的梯度信息来计算不同特征地图的重要性。使用模型的已知结构和内部参数,从模型的最后一层开始,通过计算特征映射的梯度来生成不同特征地图相对于显着性图的重量。它列出了在正方向和负面方向上特征的重要性,并使用具有积极影响的权重来加重功能图中捕获的特征,从而形成了当前决策的积极解释;它使用对其他类别产生负面影响的权重来对特征映射中捕获的特征进行加权,从而形成了当前决策的反向解释。决策的显着性图是由两者共同生成的,并且获得了智能代理的决策行为的基础。通过实验证明了该方法的有效性。