摘要:在这项研究中,我们提出了一种革命性的深入强化学习方法,用于自动渗透测试。建议的方法使用深度Q学习网络来开发有效利用目标系统中弱点的攻击序列。该方法在虚拟环境中进行了测试,结果表明它可以识别手动渗透测试无法做到的漏洞。在这项工作中使用了各种工具,包括深Q学习网络,Mulval,NMAP,VirtualBox,Docker,Docker,National脆弱性数据库(NVD)和共同的漏洞评分系统(CVSS)。建议的方法显着优于当前自动穿透测试方法。我们提出的方法可以检测到手动渗透测试错过的缺陷,并且可以修改(根据惩罚值)以适应目标系统(网络)更改的更新。此外,它有可能大大提高渗透测试的有效性和效率,并可能有助于提高计算机系统的安全性。在这项工作中进行的实验测试通过在攻击自动化过程中利用最有效的攻击向量,揭示了DQN自动渗透测试的有效性。通过在攻击自动化过程中利用最有效的攻击向量,揭示了DQN自动渗透测试的有效性。
摘要 — 提出了一种新颖的框架,借助车对基础设施 (V2I) 通信网络提高自动驾驶汽车 (AV) 的驾驶安全性和燃油经济性。驾驶轨迹设计问题旨在最小化总燃料消耗,同时提高驾驶安全性(通过遵守交通规则和避开障碍物)。为了解决这个相关问题,提出了一种深度强化学习 (DRL) 方法来做出无碰撞决策。首先,提出了一种深度 Q 网络 (DQN) 辅助算法,通过从基站 (BS) 接收实时交通信息来确定 AV 的轨迹和速度。更具体地说,AV 充当代理,通过与环境交互来执行最佳动作,例如变道和变速。其次,为了克服 Q 学习模型对动作值的过高估计,提出了一种双深度 Q 网络 (DDQN) 算法,将最大 Q 值操作分解为动作选择和动作评估。此外,还提出了三种实用的驾驶策略作为基准。数值结果证明,所提出的轨迹设计算法能够提高 AV 的驾驶安全性和燃油经济性。我们证明了所提出的基于 DDQN 的算法优于基于 DQN 的算法。此外,还证明了从 DRL 算法衍生而来的基于燃油经济性 (FE) 的驾驶策略能够比基准节省超过 24% 的燃油。
摘要 - 在各个领域中广泛使用知识图在其中有效整合和更新信息带来了挑战。在合并上下文时,常规方法通常依赖于规则或基本的机器学习模型,这可能无法完全掌握上下文信息的复杂性和流动性。这项研究提出了一种基于强化学习(RL)的方法,特别是利用深Q网络(DQN)来增强将上下文集成到知识图中的过程。通过将知识图的状态考虑为环境将动作定义为集成上下文的操作并使用奖励功能来评估知识图质量后整合后的改进,该方法旨在自动开发最佳上下文集成的策略。我们的DQN模型将网络用作函数近似器,不断更新Q值以估计动作值函数,从而有效地集成了复杂和动态上下文信息。最初的实验发现表明,我们的RL方法在实现各种标准知识图数据集的精确上下文集成方面优于技术,突出了增强学习在增强和管理知识图方面的潜在和有效性。索引术语 - 知识图推理,强化学习,奖励成型,转移学习
摘要 - 智能传统信号控制器,将DQN算法应用于传递光策略优化,通过将TRAF-Fimfimals调整到实时交通状态,可以充分地减少交通拥堵。文献中的大多数命题都认为,检测到十字路口的所有车辆都是不现实的情况。最近,新的无线通信技术已通过基础设施对连接的车辆进行了成本范围的检测。只有当前配备的总量的一小部分,可以在低检测率下执行的方法。在本文中,我们提出了一个深钢筋Q学习模型,以优化孤立的交叉点,在具有连接车辆的部分可观察到的环境中。首先,我们在RL框架中介绍了新颖的DQN模型。我们为部分可观察到的环境引入了新的状态表示形式,并为传播信号控制提供了新的奖励功能,并提供网络体系结构和调整的超参数。第二,我们以两个步骤在多种情况下在数值模拟中评估模型的性能。首先完全检测到现有的驱动控制器,然后部分分解,并与互联车辆比例的损失估计值进行部分分解。最后,从获得的结果中,我们定义了可接受和最佳性能水平的检测率。该模型的源代码实现可在以下网址获得:https://github.com/romainducrocq/dqn-itscwpd
问题描述:在此项目中,学生将采用深度强化学习(DRL)来发展机器人的操纵技巧,重点关注诸如接地操作和连接器插入等任务,这对于组装过程至关重要。选择特定的增强学习算法的灵活性允许探索各种DRL方法,例如基于价值的方法(例如DQN),基于策略的方法(例如PPO)或参与者 - 繁体架构。主要目标是设计一种控制策略,该策略使机器人能够通过与环境的互动来自主学习这些技能,从而通过反复试验和错误来提高其性能。
摘要 - 入侵检测系统(IDS)在确保计算机网络的安全性方面起着至关重要的作用。机器学习已成为一种流行的入侵检测方法,因为它能够在大量数据中分析和检测模式。但是,当前基于ML的IDS解决方案通常很难与攻击模式的不断变化的性质和新攻击类型的出现保持同步。此外,这些解决方案面临与阶级失衡相关的挑战,其中属于不同类别(正常和入侵)的实例数量显着不平衡,这阻碍了它们有效检测次要类别的能力。在本文中,我们提出了一种新型的多代理增强学习(RL)体系结构,以实现自动,高效和健壮的网络入侵检测。为了增强所提出模型的功能,我们通过实施加权均方根损失函数并采用了成本敏感的学习技术来改善DQN算法。我们的解决方案引入了一种弹性体系结构,旨在适应新的攻击并有效地适应现有攻击模式的变化。使用CIC-IDS-2017数据集实现的实验结果,证明我们的方法可以有效地解决类不平衡问题,并以非常低的假阳性速率提供精细的攻击分类。与当前的最新作品相比,我们的解决方案在检测率和假阳性速率方面都具有显着优势。索引术语 - 入侵检测系统(IDS),多代理增强学习,深Q网络(DQN),类不平衡,CIC-IDS-2017
摘要 - 自主驾驶中有效的决策依赖于其他交通代理的未来行为的准确推断。为了实现这一目标,我们提出了一个基于在线信念的行为预测模型,也提出了一个有效可观察到的马尔可夫决策过程(POMDP)的有效计划者。我们开发了一个基于变压器的预测模型,通过复发性神经记忆模型增强,以动态更新潜在信念状态并推断其他代理的意图。该模型还可以整合自我车辆的意图,以反映代理之间的闭环交互,并从离线数据和在线交互中学习。为了计划,我们采用了一个具有宏观动作的蒙特卡洛树搜索(MCT)计划者,从而通过搜索时间扩展的动作步骤来降低计算复杂性。在MCTS计划者中,我们使用预测的长期多模式轨迹来近似未来的更新,从而消除了迭代信念的更新和提高跑步效率。我们的方法还将深度Q学习(DQN)作为搜索事务,从而大大提高了MCTS计划者的性能。模拟环境的实验结果验证了我们提出的方法的有效性。在线信念更新模型可以显着提高预测的准确性和时间一致性,从而改善决策绩效。在MCT计划中,采用DQN作为搜索,大大提高了其性能,并优于基于模仿学习的先验。此外,我们表明,具有宏观动作的MCT计划在性能和效率方面大大优于香草方法。
在移动机器人技术中实施深度强化学习是为开发自动移动机器人开发以充分完成任务和运输对象的绝佳解决方案。强化学习通过自我学习和生物学上的合理性继续在机器人应用中表现出令人印象深刻的潜力。尽管取得了进步,但仍在在动态环境中应用这些机器学习技术。本论文探讨了使用图像作为输入的深Q-Networks(DQN)的性能,用于动态迷宫难题中的移动机器人导航,并旨在为模拟和现实生活中的机器人系统的深入强化学习应用程序的进步做出贡献。此项目是在基于硬件的系统中实现的一步。
在自动股票交易中使用增强学习(RL)由于其潜力通过直接从市场数据中学习来优化交易策略而引起了重大兴趣。该领域的早期工作以传统机器学习技术的基础为基础,朝着能够与财务环境互动的更具动态的模型迈进。Mnih等人做出了开创性的贡献。(2015)带有深Q-Networks(DQN),它为RL代理打开了在具有较大州空间(例如金融市场)环境中处理复杂决策的大门。这一进步激发了研究人员将DQN和其他RL算法应用于股票市场,在该股市中,代理商必须学会在不确定的不确定条件下做出买卖,出售或执行决定。Moody和Saffell(2001)的研究首先证明了将RL应用于直接股票交易的可行性。他们的工作将交易任务视为一个顺序决策过程,为将来的基于RL的系统奠定了基础,以优化累积回报。后来,诸如近端政策优化(PPO)和深层确定性政策梯度(DDPG)等算法已越来越多地应用于金融市场。这些算法,由Schulman等人介绍。(2017)和Lillicrap等。(2016)分别提供了在具有连续行动空间的环境中提高稳定性和性能,这对于必须精确做出交易决策的金融市场至关重要。总而言之,关于使用加强学习的自动股票交易的文献已取得了长足的进步,尤其是随着深度学习和高级RL算法的出现。虽然基于RL的代理商展示了超过传统方法的潜力,与数据质量,风险管理,计算复杂性以及对实时市场状况的适应性相关的挑战仍然是积极研究的领域。
体验重播,在每次步骤e t =(s t,a t,r t,s t+ 1)中存储代理商的经验,其中e是一步的经验,s是状态,a是所采取的动作,r是收到的奖励。代理商选择基于适当动作的操作-SelectionsTrategy。随后重播各州,以学习算法的增强算法。dqn使用经验重播,通过从存储的体验池中抽样在Minibatches中学习。代理商将决定采取行动,观察环境的过渡并获得相关的奖励。因此,代理的目标是采取适当的动作,以最大程度地提高长期的termumulativereward。奖励。recults