金融投资组合管理投资政策通过现代投资组合理论(如Markowitz模型)进行定量计算的投资政策依赖于一组假设,这些假设在高波动性市场(例如技术部门或加密货币)中不受数据支持。因此,定量研究人员正在寻找解决此问题的替代模型。具体而言,投资组合管理(PM)是一个问题,最近通过深度强化学习(DRL)方法完全解决了问题。在特定的DRL算法中,通过估计代理在模拟器中任何财务状态执行的每个动作的预期奖励的分布,也称为体育馆。然而,这些方法依靠深神经网络模型来表示这种分布,尽管它们是通用近似模型,能够随着时间的推移代表此分布,但它们无法解释其行为,但由一组不可解释的参数给出。至关重要的是,金融投资者的政策要求可以解释,以评估他们是否遵循合理的行为,因此DRL代理不适合遵守特定政策或解释其行为。在这项工作中,在使DRL可以解释的动机的驱动下,我们开发了一种可解释的DRL(XDRL)方法,用于PM,将近端政策优化(PPO)DRL算法整合到模型不可思议的可解释的机器学习技术中,以提高预测时间的透明度,以增强透明度的特征。我们提出了DRL代理商的第一个可解释的事后PM财务政策。通过执行我们的方法,我们可以在预测时间解释代理商评估他们是否遵循投资政策的必要条件或评估遵循代理商建议的风险。我们通过成功识别影响投资决策的关键特征来从经验上说明这一点,从而证明了在预测时间中解释代理行动的能力。
摘要 —随着电动汽车 (EV) 的日益普及和电动汽车电子设备技术的进步,车辆到电网 (V2G) 技术和大规模调度算法得到了发展,以实现高水平的可再生能源和电网稳定性。本文提出了一种深度强化学习 (DRL) 方法,用于聚合 V2G 模式下的大规模电动汽车与可再生能源 (RES) 的连续充电/放电协调策略。DRL 协调策略可以在 EVA 和单个电动汽车的充电状态 (SOC) 约束下有效优化电动汽车聚合器 (EVA) 的实时充电/放电功率。与不受控制的充电相比,负载方差降低了 97.37%,充电成本降低了 76.56%。DRL 协调策略进一步展示了对具有 RES 和大规模 EVA 的微电网以及复杂的每周调度的出色迁移学习能力。 DRL 协调策略在实际运行条件下为大规模 V2G 展现出灵活、适应性强、可扩展的性能。
摘要 - 在越野环境中旋转的未拧紧地面车辆(UGV)的准确路径跟踪面临着源于操作条件的多样性引起的挑战。用于Ackermann转导车辆的传统基于模型的控制器具有良好的(无防滑)路径跟踪的穿孔,但性能会以越来越不平坦的地形和更快的遍历速度下降。本文介绍了一种新颖的方法,一种混合深化增强学习(HDRL)控制器,利用了线性二次调节器(LQR)的优势和深钢筋学习(DRL)控制器,以增强Ackermann steceered ugvs的增强路径跟踪。DRL控制器主要弥补地形条件和未知车辆参数的不确定性,但训练在计算上可能很昂贵。LQR控制器在初始训练阶段指导DRL控制器,从而确保更稳定的性能并在早期迭代中获得更高的回报。这样做,这种混合方法提供了有望克服基于模型的控制器的局限性以及常规DRL方法的样本信息的局限性。在手稿中显示的初步结果显示了HDRL控制器的希望,表现出比无模型的DRL和常规反馈控制器更好的性能。
摘要 - 深度强化学习(DRL)的前进使训练各种强大的代理在实时环境中执行复杂的任务成为可能。使用下一代通信技术,与进化的DRL代理进行云边缘协作人工情报服务可能是一个重要的情况。但是,在同一DRL方案中具有不同属性和体系结构的代理可能不兼容,并且训练它们是耗时的或需要资源的。在本文中,我们设计了一种新颖的云边缘协作DRL培训框架,该培训框架命名为“频率转移”在线,这是一种新方法,可以通过与最小数据互动的最小数据互动,而不依赖于climpepality of-efl-eflimpeal of-efl datataSetsets clus in the Edge的在线DRL代理在边缘的融合。在其中,我们提出了一种新颖的算法独立于在线RL代理的知识蒸馏算法,通过利用预训练的模型以及代理与环境之间的界面来传递多种异构药物的蒸馏知识。广泛的实验表明,我们的算法可以以双重到速度的速度加速各种在线代理的收敛性,并在不同的环境中获得可比的奖励。
为了寻找运动任务中深度强化学习的简单基线,我们提出了一种无模型的开环策略。通过利用先验知识和简单振荡器的优雅来产生周期性的关节动作,它在五个不同的运动环境中实现了可观的性能,其中许多可调参数是DRL算法通常所需的数千分之一。我们使用开环振荡器进行了两个其他实验,以确定这些算法的当前缺点。我们的结果表明,与基线相比,DRL暴露于传感器噪声或故障时,DRL更容易降解。此外,我们使用弹性四足动物展示了从模拟到现实的成功转移,其中RL在没有随机或奖励工程的情况下失败。总体而言,拟议的基线和协会实验突出了DRL在机器人应用中的现有局限性,提供了有关如何解决它们的见解,并鼓励对复杂性和一般性的成本进行反思。
abtract的深入增强学习(DRL)已被广泛用于寻找最佳路由方案,以满足用户的各种需求。但是,DRL的优化目标通常是静态的,因为网络环境是动态的。交通环境的变化或净工作设备的重新配置通常会导致网络性能的定期变化(例如,吞吐量降低和潜伏期峰)。传统的静态目标配置不能反映动态净工作环境中不同指标的重要性差异,从而导致基于DRL的路由算法的僵化性。为了解决上述问题,我们建议使用Graph神经网络(GNNS)和DRL的在线路由优化算法优化。通过对网络的不同特征(例如路径,流和链接)之间的关系进行建模和理解,我们提出的GNN模型可以预测网络性能指标的未来开发(即延迟,吞吐量和丢失),从而迅速调整路由算法的目标。然后,使用我们提出的DRL模型,代理可以学习适应不同环境变化的最佳途径。我们在控制平面上实现了G路线甲基元素,并使用现实世界网络拓扑和流量数据执行模拟实验。实验结果表明,当网络环境发生重大变化时,我们提出的G路线会收敛得更快,达到较低的抖动并生成更可靠的路由方案。
由于多径干扰和非视距接收的影响,城市环境中自动驾驶的高精度全球导航卫星系统 (GNSS) 定位仍是一个未解决的问题。最近,基于数据驱动的深度强化学习 (DRL) 的方法已被用于学习定位校正策略,这些方法适用于非平稳城市环境,而无需对模型参数进行严格的假设。然而,DRL 的性能严重依赖于训练数据的数量,而由于信号衰减和随机噪声大等问题,在城市环境中收集的高质量可用 GNSS 数据不足,导致 DRL 性能不佳和训练效率低下。在本文中,我们提出了一种基于 DRL 的定位校正方法,该方法结合自适应奖励增强方法 (ARAM),以提高非平稳城市环境中的 GNSS 定位精度。为了解决目标域环境中训练数据不足的问题,我们利用在源域环境中收集的足够数据来弥补训练数据不足,其中源域环境可以位于与目标环境不同的位置。然后我们
能够在探索性数据分析(EDA)中找到一组记录(EDA)的能力,以取决于数据集中对象的散射以及用户对数据的了解及其表达需求的能力。这产生了各种EDA方案和解决方案,它们在向用户提供的指导上有所不同。在本文中,我们研究了建模的好奇心与熟悉程度(DRL)(DRL)和表达数据探索操作员之间的相互作用。我们将好奇心形式化为固有的奖励和熟悉,作为外在奖励。我们研究了为这些奖励所学的几个政策的行为。我们在SDSS上进行的实验,一个非常大的天空调查数据集1提供了几种见解,并证明需要更深入地检查DRL和数据探索操作员,而这些探索者超越了钻孔和滚动。
摘要。我们提出了一种适合深入加强学习(DRL)问题的新颖算法,该算法利用信息几何形状实施战略性和选择性遗忘。我们的方法旨在解决DRL的首要偏见,并在顺序决策框架内提高适应性和鲁棒性。我们从经验上表明,通过包括利用Fisher Information Matrix来实现的选择性遗忘机制,与仅专注于学习的传统DRL方法相比,人们可以获得更快,更健壮的学习。我们的实验是在流行的DeepMind Control Suite基准上执行的,可以加强该想法 - 已经存在于文献中 - 忘记是学习的基本组成部分,尤其是在具有非平稳目标的情况下。
互联网拥塞控制(CC)长期以来在网络系统中提出了一个挑战控制问题,最近的方法越来越多地纳入了深度强化学习(DRL),以增强适应性和性能。尽管有希望,但基于DRL的CC方案通常会遭受公平性差,尤其是在培训期间未见的网络环境时。本文介绍了陪审团,这是一种基于DRL的新型CC计划,旨在实现公平性。At its heart, Jury decouples the fairness con- trol from the principal DRL model with two design elements: i) By transforming network signals, it provides a universal view of network environments among competing flows, and ii) It adopts a post-processing phase to dynamically module the sending rate based on flow bandwidth occupancy estima- tion, ensuring large flows behave more conservatively and smaller flows more aggressively, thus achieving a fair和平衡的带宽分配。我们已经完全实施了陪审团,广泛的评估证明了其在仿真和现实世界网络的广泛范围内的强大结合特性和高性能。