本文讨论了如何将Q学习和深度Q-Networks(DQN)应用于马尔可夫决策过程(MDP)描述的状态行动问题。这些是机器学习方法,用于在每个时间步骤中找到最佳的动作选择,从而导致最佳策略。讨论了这两种方法的局限性和优势,主要局限性是Q学习无法用于无限状态空间的问题。Q-学习在算法的简单性方面具有优势,从而更好地理解了该算法实际上在做什么。Q学习确实设法找到了本文研究的简单问题的最佳策略,但无法解决高级问题。深层Q-NETWORK(DQN)方法能够解决这两个问题,因此很难理解算法实际上在做什么。
摘要:对高速网络服务的需求和网络流量的不断发展导致了融合网络的普及,这些网络在单个基础架构上混合了各种服务。但是,由于应用程序要求和资源限制的种类繁多,因此很难确保这些网络中的服务质量(QoS)。用于分配带宽的常规方法经常是静态,反应性和效率低下的,这会导致网络性能不足。我们提供了一种独特的深度学习方法,以优化收敛网络中的带宽分配,以克服这一点。我们创建并使用三个深度学习模型:深Q网络(DQN),生成对抗网络(GAN)和一种基于LSTM的特殊DQN模型。我们使用广泛的数据集评估每个模型的性能。我们的结果表明,新型DQN模型在最小数据包丢失,准确性提高,延迟降低,吞吐量最大化,光谱效率优化,降低位错误率,降低位错误,公平性保证和有效的通道资源使用方面的性能优于其他模型。更好的服务质量是这些升级的结果,这也大大提高了上传和下载速度。我们的实证研究证明了我们的方法论在现实世界中的有用性,并为智能网络管理解决方案打开了大门,这些解决方案促进了更好的QoS,有效的带宽分配以及改善融合网络中的用户体验。
随着网络威胁的越来越复杂,下一代网络(NGN)中的现有入侵检测系统(IDS)受到更多的虚假启动和努力提供强大的安全性功能,突出了对更适应性和可靠的威胁检测机制的关键需求。这项研究介绍了一个新颖的ID,该ID利用了Dueling Dueling Deep Q-Network(DQN)在游戏理论框架中模拟多试剂对手学习方案的强化学习算法来应对这些挑战。通过使用定制的OpenAI健身房环境进行现实的威胁模拟和先进的决斗DQN机制,以减少高估偏差,拟议方案显着提高了入侵检测的适应性和准确性。针对当前最新方法的比较分析表明,所提出的系统可实现出色的性能,精度和F1得分的提高分别为95.02%和94.68%。这些结果强调了拟议的自适应ID的潜在范围,以防御NGN中的动态威胁格局。
摘要。月球着陆器问题在强化学习领域提出了巨大的挑战,因此需要创建能够在月球表面安全着陆的自主航天器。在这项研究中,研究并检查了三种突出的增强学习算法,即深Q-Network(DQN),Double Deep Q-Network(DDQN)和策略梯度,并进行了检查并检查以解决此问题。最初,将神经网络和Q学习的DQN算法利用以学习最佳着陆政策。通过通过神经网络培训近似Q值,该航天器学会了做出明智的决定,从而成功着陆。随后,使用减轻高估偏差的DDQN算法。利用两个神经网络(一个用于行动选择,另一个用于评估),DDQN可提高稳定性和收敛性,从而产生精致的着陆策略。此外,这项工作探讨了策略梯度方法在此问题中的应用。通过使用梯度上升直接优化策略,该航天器可以最大化累积奖励,从而实现有效而准确的降落。通过广泛的模拟来评估该算法的性能,该模拟涵盖了不同的月球表面条件。结果证明了这些方法的有效性,展示了它们促进成功和燃油效率的航天器登陆的能力。总而言之,这项研究有助于了解Lunar Lander问题的DQN,DDQN和政策梯度算法。这些发现突出了每种算法的独特优势及其在自主航天器上的潜力。这项研究所获得的见解对未来的月球任务中智能着陆系统的发展具有影响,从而推进了航空航天应用中强化学习领域。
近年来,量子计算技术的发展已经大大提高,这与深度强化学习技术的进步相似。这项工作探讨了量子计算促进加强学习问题的潜力。量子计算方法为传统算法提供了重要的时间和空间复杂性,因为它可以利用超级宽容和纠缠的量子现象的能力。特别是我们研究了量子变异电路的使用,这是一种量子机学习的形式。我们介绍了用于编码量子变异电路的经典数据的技术,我们进一步探索了DQN和Double DQN的纯和混合量子算法。我们的结果表明,混合动力和纯量子变异电路具有较小的参数空间来求解加强学习任务的能力。这些比较与两个OpenAi健身环境:Cartpole和二十一点,这项工作的成功表明了量子机器学习与深度强化学习之间的牢固未来关系。
近年来,量子计算技术的发展已经大大提高,这与深度强化学习技术的进步相似。这项工作探讨了量子计算促进加强学习问题的潜力。量子计算方法为传统算法提供了重要的时间和空间复杂性,因为它可以利用超级宽容和纠缠的量子现象的能力。特别是我们研究了量子变异电路的使用,这是一种量子机学习的形式。我们介绍了用于编码量子变异电路的经典数据的技术,我们进一步探索了DQN和Double DQN的纯和混合量子算法。我们的结果表明,混合动力和纯量子变异电路具有较小的参数空间来求解加强学习任务的能力。这些比较与两个OpenAi健身环境:Cartpole和二十一点,这项工作的成功表明了量子机器学习与深度强化学习之间的牢固未来关系。
摘要行为决策子系统是自动驾驶系统的关键组成部分,它反映了车辆和驾驶员的决策能力,并且是车辆高级智能的重要象征。但是,现有的基于规则的决策计划受设计师的先验知识的限制,并且很难应对复杂而可变的交通情况。在这项工作中,采用了先进的深度强化学习模型,该模型可以自主学习和优化复杂且可更改的交通环境中的驾驶策略,通过将驾驶决策过程建模为强化学习问题。具体来说,我们使用了深Q-NETWORK(DQN)和近端策略优化(PPO)进行比较实验。DQN通过近似国家行动值函数来指导代理商选择最佳动作,而PPO通过优化策略功能来提高决策质量。我们还介绍了奖励功能的设计改进,以促进在现实世界驾驶情况下模型的鲁棒性和适应性。实验结果表明,在各种驾驶任务中,基于深入强化学习的决策策略比传统的基于规则的方法具有更好的性能。
在线强化学习 (RL) 算法通常难以部署在复杂的面向人类的应用程序中,因为它们可能学习缓慢并且早期性能较差。为了解决这个问题,我们引入了一种实用的算法,用于结合人类洞察力来加速学习。我们的算法,约束抽样强化学习 (CSRL),将先前的领域知识作为 RL 策略的约束/限制。它采用多种潜在的策略约束来保持对单个约束错误指定的鲁棒性,同时利用有用的约束来快速学习。给定一个基础 RL 学习算法(例如 UCRL、DQN、Rainbow),我们提出了一种具有消除方案的上限置信度,该方案利用约束与其观察到的性能之间的关系来自适应地在它们之间切换。我们使用 DQN 型算法和 UCRL 作为基础算法来实例化我们的算法,并在四种环境中评估我们的算法,包括三个基于真实数据的模拟器:推荐、教育活动排序和 HIV 治疗排序。在所有情况下,CSRL 都能比基线更快地学习到好的策略。
摘要 - 可重新配置的智能表面(RIS)是一种可提高无线通道质量的潜在无线技术。RIS通常配备了被动元素,并为无线通信系统的覆盖范围提供了成本和功率良好的解决方案。没有任何射频(RF)链或计算资源,RIS需要从外部单元(例如基站(BS))发送控制信息。控制信息可以通过有线或无线通道传递,并且BS必须了解RIS和与RIS相关的通道条件,以有效地配置其行为。最近的作品引入了混合RIS结构,具有一些可以感知和数字化处理数据的活性元素。在这里,我们提出了一个完全自主的RI的操作,该操作在RIS和BS之间没有控制链接的情况下运行。使用一些感应元素,自主RIS基于强化学习采用了深Q网络(DQN),以提高网络的总和。我们的结果说明了在没有网络开销的无线网络中部署自动riss的潜力。索引术语 - 自主RIS,DQN,深度学习,Mu- miso,速率最大化,无线通信。
摘要 - 新应用程序的出现导致对移动边缘计算(MEC)的需求很高,这是一个有希望的范式,在网络边缘部署了类似云的架构,以向移动用户(MUS)提供计算和存储服务。由于MEC服务器与远程云相比的资源有限,因此在MEC系统中优化资源分配并平衡合作MEC服务器之间的负载至关重要。MEC服务器的不同类型计算服务(CSS)的缓存应用数据也可能是高度好处的。在本文中,我们调查了合作MEC系统中层次结构缓存和资源分配的问题,该系统被称为有限的Horizon成本成本最小化Markov决策过程(MDP)。为了处理大型状态和动作空间,我们将问题分解为两个耦合的子问题,并开发了基于分层的增强学习(HRL)基于基于的解决方案。下层使用深Q网络(DQN)来获取流量决策的服务缓存和工作量,而上层则利用DQN来获得合作MEC服务器之间的负载平衡决策。我们提出的方案的可行性和有效性通过我们的评估结果验证。