深度强化学习(DRL)在任务卸载问题方面越来越受欢迎,因为它可以适应动态变化并最大程度地减少在线计算复杂性。但是,在用户设备(UDS)和移动边缘计算(MEC)服务器上的各种类型的连续和离散资源约束对高效的基于DRL的任务下载策略的设计构成了挑战。假设服务器上有足够的存储资源,则基于DRL的任务折扣算法重点关注UDS的约束。此外,现有的基于多种DRL(MADRL)的任务攻击算法是同质代理,并将同质的约束视为其奖励功能的惩罚。在这项工作中,我们提出了一种新颖的组合客户端MADRL(CCM_MADRL)算法,用于在移动边缘compoting中进行任务卸载(CCM_MADRL_MEC),允许UDS决定其重新源要求,并根据UDS的要求做出组合决策。ccm_madrl_mec是任务卸载的第一种MADRL方法,即除了UDS的限制外,考虑服务器存储的ca- partical。通过利用组合动作选择,CCM_MADRL_MEC显示出优于现有基准和启发式算法的优越性收敛性。
s 2 ak遗憾的上限,其中s,a,k,h,t = kh和β分别代表状态,动作,情节,时间范围,总时间段数量和风险参数的数量。它与RSVI2(Fei等人,2021年)匹配,与新的分布分析有关,重点是回报的分布,而不是与这些回报相关的风险值。据我们所知,这是第一个遗憾的分析,即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法,我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时,它显着扩大了计算效率。
代码完成旨在通过基于当前的编程环境预测潜在代码来提高编程生产率。最近,预先训练的语言模型(LMS)在这一领域变得突出。已经提出了各种方法使用监督的调整(SFT)技术来完成代码完成。但是,这些模型的固有暴露偏见可能会导致序列完成的早期累积错误,从而导致随后完成的更多错误。为了解决这个问题,深度加强学习(DRL)是用于完成代码完成LMS的替代技术,可以提高概括能力和整体性能。然而,将基于DRL的策略整合到代码完成中面临两个主要挑战:1)代码上下文的动态性质要求完成模型快速适应变化,这为传统的DRL策略构成了困难,该策略的重点是延迟奖励最终代码状态。2)很难评估部分代码的正确性,因此,基于奖励再分配的策略不能适应代码完成。为了应对这些挑战,我们提出了Ircoco,这是一个基于DRL的代码完成框架。此框架旨在提供即时的奖励,作为检测代码完成期间连续编辑引起的动态上下文更改的反馈。借助即时反馈,精细调整的LM可以更加精确地了解当前上下文,从而有效地调整LM并以更重新确定的方式优化代码完成。实验结果表明,使用IRCOCO进行的精细培训的LMS导致代码完成任务的显着改进,表现优于基于SFT和其他基于DRL的基础线。
图1。深度学习技术的分类学。图改编自参考[70]。MLP: Multi-Layer Perceptron; CNN: Convolutional Neural Network; ResNet: Residual Neural Net- work; GCN: Graph Convolutional Network; GAT: Graph Attention Network; RNN: Recurrent Neural Network; LSTM: Long Short-Term Memory; GRU: Gated Recurrent Unit; SAT: Structure- Aware Transformer; GAN: Generative Adversarial Network; AE: Auto-Encoder; SAE:稀疏自动编码器; DAE:DENOISISIS AUTOCODER; CAE:CASSITIVE AUTOCONEDER; VAE:VIRIATIANIT AUTOCONECODER; SOM:自组织映射; RBM:限制性Boltzmann Machine; DBN; DBN; DBN:深信信念网络:DRL:DRL:DRL:深度强化:深度强化学习。
随着基于逆变器的可再生能源的渗透,深厚的增强学习(DRL)被认为是实现实时和自主控制的最有前途的解决方案之一,以实现未来的碳中性动力系统。尤其是对基于DRL的频率控制方法进行了广泛的研究,以克服基于模型的方法的局限性,例如大型系统的计算成本和可扩展性。尽管如此,基于DRL的频率控制方法的现实实施面临以下乐趣的挑战:1)在学习和决策过程中的安全保证; 2)针对动态系统操作条件的适应性。到此为止,这是提出适应性和安全认证的DRL(ADAPSAFE)算法的第一份用于频率控制的算法,以模拟上述挑战。在特殊的情况下,一种新型的自我调整控制屏障功能旨在积极补偿各种安全性限制下不安全的频率控制策略,从而实现了瓜兰安全性。此外,元提高学习的概念旨在显着增强其在非平稳电源系统环境中的适应性,而无需牺牲安全成本。实验是根据GB 2030功率系统进行的,结果表明,所提出的Adapsafe在训练和测试阶段的保证安全性方面表现出卓越的性能,以及其对系统参数动力学变化的相当适应性。
摘要 - 数据是AI中的重要资产,因为高质量的数据集可以显着提高机器学习模型的性能。在自动驾驶汽车等安全性领域中,离线深度强化学习(Offline DRL)经常用于在预采用的数据集中训练模型,而不是通过与现实世界环境进行互动作为在线DRL来培训这些模型。为了支持这些模型的开发,许多机构可以通过开放源许可公开获得数据集,但是这些数据集有可能滥用或侵权的风险。向数据集注入水印可能会保护数据的知识产权,但是它无法处理已经发布的数据集,并且以后无法更改。其他现有解决方案,例如数据集推理和会员推理,由于不同的模型行为特征和离线设置约束,因此在离线DRL方案中无法正常工作。
摘要 - 在合作边缘节点中流动的室内化任务已成为提高资源利用并改善边缘计算中用户的经验质量(QOE)的有前途的解决方案。但是,当前的分散方法(例如启发式方法和基于游戏理论的方法)可以优化贪婪或依赖于刚性假设,无法适应动态边缘环境。现有的基于DRL的方法在模拟中训练该模型,然后将其应用于实用系统。由于实际系统与模拟环境之间的差异,这些方法的性能可能很差。其他直接训练模型和部署模型的方法将面临一个冷启动的问题,这将在模型收敛之前减少用户的QOE。本文提出了一本名为(o2o-drl)的drl-on-Online DRL小说。它使用启发式任务日志来启动lim的DRL模型。但是,频道和在线数据具有不同的分布,因此,使用局部方法进行在线调整会破坏所学的局部策略。为了避免此问题,我们使用派利DRL来调整模型并防止价值高估。我们在模拟和基于Kubernetes的测试台中使用其他方法评估O2O-DRL。性能结果表明,O2O-DRL胜过其他方法,并解决了冷门问题。
摘要 - 深处增强学习(DRL)是一种强大的机器学习范式,用于生成控制自主系统的代理。但是,DRL代理的“黑匣子”性质限制了其在现实世界中关键应用程序中的部署。为代理行为提供强大保证的一种有前途的方法是使用神经Lyapunov屏障(NLB)证书,该证书是通过系统中学的功能,其属性间接地暗示着代理的行为。但是,基于NLB的证书通常很难学习,甚至更难验证,尤其是对于复杂的系统。在这项工作中,我们提出了一种新颖的方法,用于培训和验证基于NLB的离散时间系统证书。具体来说,我们引入了一种证书组成的技术,该技术通过策略性地设计一系列证书来简化高度复杂系统的验证。当通过神经网络验证引擎共同验证时,这些证书提供了正式的保证,即DRL代理都实现了其目标并避免了不安全的行为。此外,我们引入了一种用于证书过滤的技术,该技术大大简化了生成正式验证的证书的过程。我们通过案例研究证明了我们的方法的优点,该案例研究为DRL控制的航天器提供了安全性和livesice保证。
摘要 - 边缘终端和云中心之间的集体资源调度被认为是有效完成计算任务并提高服务质量的有希望的手段。在本文中,为了进一步改善可实现的性能,Edge Cloud Resource Scheduling(ECRS)问题基于任务依赖性和功能提取。通过考虑任务完成时间,成本,能耗和系统可靠性作为四个目标,提出了多目标ECRS模型。此外,在我们的工作中采用了基于深钢筋学习(DRL)和多目标优化的混合方法。特定于DRL预处理工作流,而多目标优化方法则努力找到帕累托最佳的工作流程计划决策。在三个具有不同任务数量的真实数据集上进行了各种实验。获得的结果表明,所提出的混合DRL和多目标优化设计优于现有的设计方法。
摘要:在考虑一组系统的健康预测的同时,在破坏性环境中对飞机机队进行基于条件的维护 (CBM) 调度是一个非常复杂的组合问题,鉴于健康预测中包含的不确定性,该问题变得更具挑战性。此类问题属于不确定条件下资源受限调度问题的大类,通常使用混合整数线性规划 (MILP) 公式来解决。虽然 MILP 框架非常有前景,但问题规模可以随着考虑的飞机数量和考虑的任务数量呈指数级增长,从而导致计算成本显着增加。人工智能的最新进展已经证明了深度强化学习 (DRL) 算法能够缓解这种维数灾难,因为一旦 DRL 代理经过训练,它就可以实现维护计划的实时优化。但是,不能保证最优性。文献中尚未讨论 MILP 和 DRL 公式在飞机机队维护调度问题中的比较优点。本研究是对这一研究空白的回应。我们对 MILP 和 DRL 调度模型进行了比较,这两个模型用于在破坏性环境中为不同规模的飞机机队的各种维护场景得出最佳维护计划,同时考虑健康预测和执行每项任务的可用资源。根据根据实际航空公司实践定义的四个规划目标来评估解决方案的质量。结果表明,DRL 方法在预测驱动任务的调度方面取得了更好的结果,并且需要更少的计算时间,而 MILP 模型可以产生更稳定的维护计划并减少维护地面时间。总体而言,该比较为将健康预测整合到航空公司维护实践中提供了宝贵的见解。