摘要 - 杂种闭环系统(也称为人造胰腺(AP))的最新进展已被证明可以优化葡萄糖控制,并减轻1型降解者(T1D)的人的自我管理负担。AP系统可以通过连续葡萄糖监测实时通信来调整胰岛素泵的基础输注速率。在深度神经网络中赋予的能力,深钢筋学习(DRL)引入了基础胰岛素控制算法的新范式。但是,所有现有的基于DRL的AP控制器都需要在代理和环境之间进行大量随机在线互动。虽然可以在T1D模拟器中进行阀门,但在现实世界临床环境中它变得不切实际。为此,我们提出了一个离线DRL框架,该框架可以完全离线开发和验证基础胰岛素控制的模型。它包括基于双重延迟的深层确定性策略梯度和行为克隆的DRL模型,以及使用拟合Q评估的非政策评估(OPE)。我们评估了由UVA/Padova T1D Simulator生成的10个虚拟成年人和10个虚拟青少年的硅数据集上提出的框架,而OHIOT1DM数据集则是一个具有12个真实T1D主题的临床数据集。在In Silico数据集中的性能表明,离线DRL算法在范围内显着增加了时间,同时将成人和青少年组的范围低于范围和时间以下。实际和估计的策略值之间的高矛式等级相关系数表示OPE的准确估计。然后,我们使用OPE来估计临床数据集上的模型性能,在该数据集中,观察到每个受试者的策略值显着提高。结果表明,提出的框架是改善T1D中个性化基底胰岛素控制的可行且安全的方法。
建筑物的供暖,通风和空调(HVAC)系统占美国能源消耗的近一半,在美国的总能源消耗量的20%。他们的运作对于确保建筑居民的身心健康也至关重要。与传统的基于模型的HVAC控制方法相比,基于最新的无模型深钢筋学习(DRL)方法表现出良好的性能,而不需要开发详细且昂贵的物理模型。但是,这些无模型的DRL方法通常会遭受较长的训练时间来达到良好的表现,这是其实践部署的主要障碍。在这项工作中,我们提出了一种系统的方法,通过充分利用各种形式的领域专家的知识来加速HVAC控制的在线增强学习。具体来说,算法阶段包括从现有的抽象物理模型和通过离线增强学习中的历史数据中的学习专家功能,将专家功能与基于规则的指南相结合,在综合专家功能指导下进行培训以及从蒸馏专家功能执行政策初始化的指导。实验结果表明最多8。8𝑋在以前的基于DRL的方法上加速。
摘要:本文提出了一种分层深度强化学习 (DRL) 方法,用于智能家电和分布式能源 (DER)(包括储能系统 (ESS) 和电动汽车 (EV))的能源消耗调度。与基于离散动作空间的 Q 学习算法相比,该方法的新颖之处在于,使用基于参与者-评论家的 DRL 方法在连续动作空间中调度家用电器和 DER 的能源消耗。为此,提出了一个两级 DRL 框架,其中根据消费者偏好的家电调度和舒适度在第一级调度家用电器,而使用第一级的最优解以及消费者环境特征在第二级计算 ESS 和 EV 的充电和放电计划。在分时定价下,在一个有空调、洗衣机、屋顶太阳能光伏系统、ESS 和 EV 的单个家庭中进行了模拟研究。不同天气条件、工作日/周末和电动汽车驾驶模式下的数值示例证实了所提出方法在电力总成本、储能系统和电动汽车的能量状态以及消费者偏好方面的有效性。
摘要:本研究重点是自动驾驶,自主车道变化领域的关键任务。自主车道变更在改善交通流量,减轻驾驶员负担和降低交通事故风险方面起着关键作用。然而,由于车道变化场景的复杂性和不确定性,自主巷变化的功能仍然面临着挑战。在这项研究中,我们使用深钢筋学习(DRL)和模型预测控制(MPC)进行了自主巷更换模拟。具体而言,我们使用参数化的软侵略者 - 批评(PASAC)算法来训练基于DRL的车道变化策略,以输出离散的车道更换决策和连续的纵向车辆加速度。我们还基于不同车道的最小预测汽车跟踪成本来选择车道选择。首次比较了在变化决策的背景下DRL和MPC的性能。模拟结果表明,在相同的奖励/成本功能和交通流下,MPC和PASAC的碰撞率为0%。PASAC在平均奖励/成本和车辆速度方面表现出与MPC相当的性能。
最近,执行计算密集型任务的移动应用程序激增,例如视频流、数据挖掘、虚拟现实、增强现实、图像处理、视频处理、人脸识别和在线游戏。然而,平板电脑和智能手机等用户设备 (UD) 执行任务计算需求的能力有限。移动边缘计算 (MEC) 已成为一种有前途的技术,可以满足 UD 日益增长的计算需求。MEC 中的任务卸载是一种通过在 UD 和 MEC 服务器之间分配任务来满足 UD 需求的策略。深度强化学习 (DRL) 在任务卸载问题中越来越受到关注,因为它可以适应动态变化并最大限度地降低在线计算复杂度。然而,UD 和 MEC 服务器上各种类型的连续和离散资源限制对设计高效的基于 DRL 的任务卸载策略提出了挑战。现有的基于 DRL 的任务卸载算法侧重于 UD 的约束,假设服务器上有足够的存储资源。此外,现有的基于多智能体 DRL(MADRL)的任务卸载算法是同质智能体,并将同质约束视为其奖励函数中的惩罚。我们提出了一种新颖的组合客户端-主 MADRL(CCM_MADRL)算法,用于 MEC 中的任务卸载(CCM_MADRL_MEC),该算法使 UD 能够决定其资源需求,并让服务器根据 UD 的需求做出组合决策。CCM_MADRL_MEC 是任务卸载中第一个除了考虑 UD 中的约束之外还考虑服务器存储容量的 MADRL。通过利用组合动作选择,CCM_MADRL_MEC 表现出优于现有 MADDPG 和启发式算法的收敛性。
在演绎域中,升序顺序的三种元认知知识类型是声明性,程序性和有条件学习。这项工作利用了深入的强化学习(DRL)提供自适应元认知干预措施,以弥合三种知识类型之间的差距,并为学生做好准备,使学生在跨越智能的辅导系统(ITS)中为未来的学习做好准备。学生收到了这些干预措施,这些干预措施教会了如何以及何时在支持默认向前链式策略的逻辑导师上使用向后策略(BC)策略。六个星期后,我们培训了学生的概率导师,该导师仅在没有干预的情况下支持BC。我们的结果表明,在ITS上,DRL弥合了学生之间的元认知知识差距,并显着提高了他们的学习表现,而不是控制同伴。此外,DRL政策适合于宣言,程序和有条件的学生对逻辑导师的元认知发展,导致他们的战略决策更加自治。关键词:深度强化学习;为将来的学习做准备;智能辅导系统;声明性知识;程序知识;有条件的知识
摘要 —随着无人机技术的快速发展,无人机被广泛应用于包括军事领域在内的许多应用领域。本文提出了一种新型的基于态势感知 DRL 的自主非线性无人机机动性控制算法,应用于网络物理巡飞弹药。在战场上,基于 DRL 的自主控制算法的设计并不简单,因为通常无法收集现实世界的数据。因此,本文的方法是利用 Unity 环境构建网络物理虚拟环境。基于虚拟网络物理战场场景,可以设计、评估和可视化基于 DRL 的自动非线性无人机机动性控制算法。此外,在现实战场场景中存在许多不利于线性轨迹控制的障碍物。因此,我们提出的自主非线性无人机机动性控制算法利用了态势感知组件,这些组件是在 Unity 虚拟场景中使用 Raycast 函数实现的。根据收集到的态势感知信息,无人机可以在飞行过程中自主且非线性地调整其轨迹。因此,这种方法显然有利于在布满障碍物的战场上避开障碍物。我们基于可视化的性能评估表明,所提出的算法优于其他线性机动控制算法。
摘要 —随着无人机技术的快速发展,无人机被广泛应用于包括军事领域在内的许多应用领域。本文提出了一种新型的基于态势感知 DRL 的自主非线性无人机机动性控制算法,应用于网络物理巡飞弹药。在战场上,基于 DRL 的自主控制算法的设计并不简单,因为通常无法收集现实世界的数据。因此,本文的方法是利用 Unity 环境构建网络物理虚拟环境。基于虚拟网络物理战场场景,可以设计、评估和可视化基于 DRL 的自动非线性无人机机动性控制算法。此外,在现实战场场景中存在许多不利于线性轨迹控制的障碍物。因此,我们提出的自主非线性无人机机动性控制算法利用了态势感知组件,这些组件是在 Unity 虚拟场景中使用 Raycast 函数实现的。基于收集到的态势感知信息,无人机可以在飞行过程中自主且非线性地调整其轨迹。因此,这种方法显然有利于在布满障碍物的战场上避开障碍物。我们基于可视化的性能评估表明,所提出的算法优于其他线性机动控制算法。
摘要 —随着无人机技术的快速发展,无人机被广泛应用于包括军事领域在内的许多应用领域。本文提出了一种新型的基于态势感知 DRL 的自主非线性无人机机动性控制算法,应用于网络物理巡飞弹药。在战场上,基于 DRL 的自主控制算法的设计并不简单,因为通常无法收集现实世界的数据。因此,本文的方法是利用 Unity 环境构建网络物理虚拟环境。基于虚拟网络物理战场场景,可以设计、评估和可视化基于 DRL 的自动非线性无人机机动性控制算法。此外,在现实战场场景中存在许多不利于线性轨迹控制的障碍物。因此,我们提出的自主非线性无人机机动性控制算法利用了态势感知组件,这些组件是在 Unity 虚拟场景中使用 Raycast 函数实现的。基于收集到的态势感知信息,无人机可以在飞行过程中自主且非线性地调整其轨迹。因此,这种方法显然有利于在布满障碍物的战场上避开障碍物。我们基于可视化的性能评估表明,所提出的算法优于其他线性机动控制算法。
摘要 —随着无人机技术的快速发展,无人机被广泛应用于包括军事领域在内的许多应用领域。本文提出了一种新型的基于态势感知 DRL 的自主非线性无人机机动性控制算法,应用于网络物理巡飞弹药。在战场上,基于 DRL 的自主控制算法的设计并不简单,因为通常无法收集现实世界的数据。因此,本文的方法是利用 Unity 环境构建网络物理虚拟环境。基于虚拟网络物理战场场景,可以设计、评估和可视化基于 DRL 的自动非线性无人机机动性控制算法。此外,在现实战场场景中存在许多不利于线性轨迹控制的障碍物。因此,我们提出的自主非线性无人机机动性控制算法利用了态势感知组件,这些组件是在 Unity 虚拟场景中使用 Raycast 函数实现的。基于收集到的态势感知信息,无人机可以在飞行过程中自主且非线性地调整其轨迹。因此,这种方法显然有利于在布满障碍物的战场上避开障碍物。我们基于可视化的性能评估表明,所提出的算法优于其他线性机动控制算法。