摘要 - 路径规划模块是自动驾驶汽车导航的关键模块,它直接影响其操作效率和安全性。在具有许多障碍的复杂环境中,传统的计划算法通常无法满足智力的需求,这可能会导致诸如无人车辆中的死区之类的问题。本文提出了一种基于DDQN的路径计划算法,并将其与优先的体验重播方法相结合,以解决传统路径计划算法通常属于死区的问题。一系列的仿真实验结果证明,基于DDQN的路径计划算法在速度和准确性方面明显优于其他方法,尤其是在极端环境中突破死区的能力。研究表明,基于DDQN的路径计划算法在路径质量和安全性方面表现良好。这些研究结果为自动驾驶自动导航的研究提供了重要的参考。
摘要。金融业始终认为股市预测至关重要。近年来,加强学习技术在股票市场预测中的应用引起了人们的关注。这项研究旨在使用深Q-NETWORKS(DQN)和Double Deep Q-Network(DDQN)进行探索,以进行库存预测。历史股票价格和相关市场数据被用作构建培训DQN和DDQN模型的强化学习环境的输入。这些模型的目的是通过学习最佳政策来预测股票的未来价格趋势。结果表明,DQN和DDQN模型在股票市场预测任务中均表现出强大的性能。与传统指标的方法相比,他们能够更准确地捕获股市的非线性特征和动态变化。此外,DDQN模型在某些指标中显示出略高的结果,表明将目标网络用于稳定训练可以改善预测性能。这些发现对投资者和财务机构具有重要意义,为投资策略和风险管理提供了宝贵的见解。此外,通过探索在股票市场预测中的强化学习方法的应用,该研究为金融领域的进一步研究提供了新的观点。但是,市场的复杂性和不确定性可能会影响预测绩效。未来的研究可以集中于增强模型架构,优化培训算法以及考虑其他市场信息的公司,以提高预测的准确性和鲁棒性。
摘要。月球着陆器问题在强化学习领域提出了巨大的挑战,因此需要创建能够在月球表面安全着陆的自主航天器。在这项研究中,研究并检查了三种突出的增强学习算法,即深Q-Network(DQN),Double Deep Q-Network(DDQN)和策略梯度,并进行了检查并检查以解决此问题。最初,将神经网络和Q学习的DQN算法利用以学习最佳着陆政策。通过通过神经网络培训近似Q值,该航天器学会了做出明智的决定,从而成功着陆。随后,使用减轻高估偏差的DDQN算法。利用两个神经网络(一个用于行动选择,另一个用于评估),DDQN可提高稳定性和收敛性,从而产生精致的着陆策略。此外,这项工作探讨了策略梯度方法在此问题中的应用。通过使用梯度上升直接优化策略,该航天器可以最大化累积奖励,从而实现有效而准确的降落。通过广泛的模拟来评估该算法的性能,该模拟涵盖了不同的月球表面条件。结果证明了这些方法的有效性,展示了它们促进成功和燃油效率的航天器登陆的能力。总而言之,这项研究有助于了解Lunar Lander问题的DQN,DDQN和政策梯度算法。这些发现突出了每种算法的独特优势及其在自主航天器上的潜力。这项研究所获得的见解对未来的月球任务中智能着陆系统的发展具有影响,从而推进了航空航天应用中强化学习领域。
风险衡量是现代财务风险管理的核心。市场发展强调了财务数据的复杂性,结果是大多数基于计量经济学模型的假设变得过时了。这意味着他们的结果不再有效,也无法正确解释。出于这个原因,在本文中,已经提出了一种基于Var-Garch模型的强大经验方法(分别var-gjr-garch),并丰富了来自定向预测的信息。标准的定向预测问题被转化为使用Double Deep Q-Network(DDQN)分类器解决的不平衡分类问题,该分类器是一种深层增强学习算法。该模型在本文中的表现是使用每日Eurostoxx 50价格数据评估的,该数据涵盖了许多重大危机和冲击,使我们能够测试其稳健性,除统计测试外。双重Q-NETWORK(DDQN)对回报的风险水平进行更好的预测,从而在风险水平较低时降低风险,或者在较高时增加。获得的结果证明,此方法生成了最准确的VAR估计值。
在许多慢性疾病管理和重症监护应用中推荐最佳治疗策略的数据驱动方法越来越兴趣。强化学习方法非常适合这个顺序的决策问题,但必须专门在回顾性病历数据集上进行培训和评估,因为直接在线探索是不安全且不可行的。尽管有这一要求,但绝大多数治疗优化研究都使用了偏离RL方法(例如,在纯粹的离线设置中表现较差的双重深Q网络(DDQN)或其变体)。离线RL的最新进展,例如保守Q学习(CQL),提供了合适的替代方案。,但是在将这些方法调整到现实世界应用中仍然存在挑战,在这些方法中,次优示例主导着回顾性数据集,并且需要满足严格的安全限制。在这项工作中,我们引入了一种实用且理论上的过渡抽样方法,以解决离线RL培训期间的行动失衡。我们对糖尿病和败血症治疗优化的两个现实世界任务进行了广泛的实验,以将所提出的方法的性能与突出的非上线和离线RL基准(DDQN和CQL)进行比较。在一系列有原则和临床相关的指标中,我们表明我们提出的方法可以根据相关的实践和安全指南进行实质性改善。
摘要 — 提出了一种新颖的框架,借助车对基础设施 (V2I) 通信网络提高自动驾驶汽车 (AV) 的驾驶安全性和燃油经济性。驾驶轨迹设计问题旨在最小化总燃料消耗,同时提高驾驶安全性(通过遵守交通规则和避开障碍物)。为了解决这个相关问题,提出了一种深度强化学习 (DRL) 方法来做出无碰撞决策。首先,提出了一种深度 Q 网络 (DQN) 辅助算法,通过从基站 (BS) 接收实时交通信息来确定 AV 的轨迹和速度。更具体地说,AV 充当代理,通过与环境交互来执行最佳动作,例如变道和变速。其次,为了克服 Q 学习模型对动作值的过高估计,提出了一种双深度 Q 网络 (DDQN) 算法,将最大 Q 值操作分解为动作选择和动作评估。此外,还提出了三种实用的驾驶策略作为基准。数值结果证明,所提出的轨迹设计算法能够提高 AV 的驾驶安全性和燃油经济性。我们证明了所提出的基于 DDQN 的算法优于基于 DQN 的算法。此外,还证明了从 DRL 算法衍生而来的基于燃油经济性 (FE) 的驾驶策略能够比基准节省超过 24% 的燃油。
摘要 - 网络函数虚拟化(NFV),该函数将网络函数从硬件中解除,并将其转换为独立于硬件的虚拟网络函数(VNF),是许多新兴网络域,例如5G,Edge,Edge Computing和Data-Center网络。服务功能链(SFC)是VNF的有序集。VNF部署问题是在SFC中找到最佳的部署策略VNF,同时保证服务级协议(SLA)。现有的VNF部署研究主要关注无能量考虑的VNF序列。但是,随着用户和应用程序要求的快速开发,SFC从序列到动态图,服务提供商对NFV的能源消耗越来越敏感。因此,在本文中,我们确定了能节能的图形结构的SFC问题(EG-SFC),并将其作为组合优化问题(COP)提出。受益于COP机器学习的最新进展,我们提出了一个基于约束深度强化学习(DRL)方法的端到端图神经网络(GNN)来求解EG-SFC。我们的方法利用图形卷积网络(GCN)表示DRL中的双重Q-Network(DDQN)的Q网络。提出了掩模机制来处理COP中的资源约束。实验结果表明,所提出的方法可以处理看不见的SFC图,并且比贪婪的算法和传统DDQN更好地表现出更好的性能。
可持续的金融欺诈检测包括在金融领域欺诈行为识别中使用可行且得体的表现。信用卡容易受到网络威胁,从而导致信用卡欺诈。欺诈者通过非法获取信用卡信息进行不诚实的行为,这种行为会给用户和公司带来经济损失。目前,深度学习 (DL) 和机器学习 (ML) 系统被部署在金融欺诈检测中,因为它们具有制造出发现欺诈交易的强大设备的功能。本文提出了一种基于云计算的财务管理财务数据分析,使用深度强化学习模型 (FDAFM-CCDRLM)。FDAFM-CCDRLM 模型的主要目的是改进经济管理中财务数据的分析。首先,在数据规范化阶段采用最小-最大规范化将输入数据转换为合适的格式。此外,提出的 FDAFM-CCDRLM 模型为特征选择过程的子集设计了一种黑翅风筝算法 (BKA)。对于分类过程,我们执行了双深度 Q 网络 (DDQN) 算法。最后,我们采用基于人工蜂群 (ABC) 算法的超参数范围方法来改进 DDQN 模型的分类结果。FDAFM-CCDRLM 系统的实验评估可以在基准数据库上进行测试。广泛的成果凸显了 FDAFM-CCDRLM 方法对金融数据分析分类过程的重要解决方案
摘要 - 在本文中,我们提出了一种新型的调度方案,以确保单跳无线网络的每包延迟,以延迟关键应用程序。我们考虑了几类具有不同延迟要求的包装,高级数据包在成功传输后产生高实用性。考虑到竞争数据包之间延迟的相关性,我们应用了延迟范围的概念,并为调度决策引入了新的输出增益功能。特别是,选择数据包的选择不仅要考虑其输出增益,还考虑了其他数据包的延迟范围。在这种情况下,我们制定了一个多目标优化问题,旨在最小化平均队列长度,同时在保证每包延迟的约束下最大化平均输出增益。然而,由于环境的不确定性(例如,时变通道条件和随机数据包到达),使用传统的优化技术解决此问题是困难的,而且通常是不切实际的。我们开发了基于深入的增强学习(DRL)的框架来解决它。特别是,我们将原始优化问题分解为一组标量优化子问题,并将它们都作为部分可观察到的马尔可夫决策过程(POMDP)。然后,我们求助于基于双重Q网络(DDQN)的算法,以学习每个子问题的最佳调度策略,这是CanoverComethelarge-ScalestatesPaceAstatesPaceAndredCeanDreduceq-valueoveres-timation。仿真结果表明,我们提出的基于DDQN的算法在奖励和学习速度方面优于常规Q学习算法。此外,与其他基准方案相比,我们提出的调度方案可以显着减少平均延迟和延迟中断率。
摘要目的:开发一个控制系统,以防止对乳制品业务的供应链的过度响应。方法:使用了以下方法:DQN,Double DQN,Dueling DQN和Dueling Double DQN以确定需求的分布:正常和均匀。结果:根据学习稳定性(最后10,000集)计算结果。观察到DQN和DDQN的平均值非常相似。为了验证DQN算法的性能是否比DQN算法的性能更好,进行了非参数测试以比较两个相关样本的平均等级,并确定它们之间是否存在差异。对于正常和均匀分布的P值分别为5.83e -38和0.000。结论:最佳结果的算法是DUELing DQN,需求的平均总成本为151.27单位,正态分布,平均为155.3个单位,需求均匀分布。一旦达到收敛性,此方法的可变性就会降低。