Bozorgmehry Boozarjomehry,G。(2025)。通过模仿学习和强化学习工程设计自动化(硕士论文,加拿大卡尔加里大学,卡尔加里大学)。从https://prism.ucalgary.ca检索。
多次无误攻击是饱和和克服导弹防御系统的最简单方法之一。为了提高针对此类攻击者群体的拦截效率,有必要根据其运动学局限性分配拦截器。此外,这样的分配方案必须是可扩展的,以应对大型方案并允许动态重新分配。在本文中,我们首先提出了这种武器目标分配(WTA)问题的新表述,并提供了使用加固学习(RL)以及贪婪的搜索算法来解决它的分散方法。从每个追随者与所有目标的角度考虑参与。同时,其他拦截器与目标群体相关,而其他团队成员则可以使用其分配和成功概率。为了改善中途轨迹的塑造,在追随者和进来的对手之间放置了静态虚拟目标。每个拦截器根据从计算有效的仿真环境中的大量场景中学到的策略动态选择目标。RL输入状态包含目标的拦截器达到性覆盖范围以及其他导弹成功的概率。RL奖励汇总了团队绩效,以鼓励在分配层面上进行合作。相关的可及性约束是通过采用拦截器运动的运动学近似来分析获得的。RL的使用确保所有拦截器的实时可扩展和动态重新分配。我们将基于RL的分散WTA和指导方案与贪婪解决方案的性能进行比较,显示了RL的性能优势。
动态治疗方案(DTRS)提供了一种系统的方法来制定适合个人患者特征的顺序治疗决策,尤其是在感兴趣的生存结果的临床环境中。审查感知树的增强学习(CA-TRL)是一个新的框架,可在估计最佳DTR时解决与审查数据相关的复杂性。我们探索从观察数据中学习有效DTR的方法。通过增强基于树木的增强学习方法,具有增强的反可能性加权(AIPW)和审查感知的修改,CA-TRL提供了强大而可解释的治疗策略。我们使用SANAD癫痫数据集通过广泛的模拟和现实世界应用来展示其有效性,在该数据集中,它的表现优于最近提出的关键指标中提出的ASCL方法,例如受限的平均生存时间(RMST)和决策精度。这项工作代表着跨不同医疗机构的个性化和数据驱动的治疗策略迈出的一步。
两种常见的顺序决策方法是人工智能规划 (AIP) 和强化学习 (RL)。每种方法都有优点和缺点。AIP 具有可解释性,易于与符号知识集成,并且通常很高效,但需要预先指定逻辑域,并且对噪声敏感;RL 只需要指定奖励,并且对噪声具有鲁棒性,但样本效率低下,不易获得外部知识。我们提出了一种将高级规划与 RL 相结合的综合方法,保留了可解释性、迁移和效率,同时允许对低级规划操作进行鲁棒学习。我们的方法通过在 AI 规划问题的状态转换模型和马尔可夫决策过程 (MDP) 的抽象状态转换系统之间建立对应关系,从 AIP 运算符定义分层强化学习 (HRL) 中的选项。通过添加内在奖励来学习选项,以鼓励 MDP 和 AIP 转换模型之间的一致性。我们通过比较 MiniGrid 和 N 室环境中 RL 和 HRL 算法的性能来展示我们的集成方法的优势,展示了我们的方法相对于现有方法的优势。
为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
摘要 - 具有触发动作功能的事物(IoT)平台的信息(IoT)平台允许事件条件通过创建一系列交互来自动触发IoT设备中的操作。对手利用这种互动链将虚假事件条件注入物联网中心,从而在目标IoT设备上触发未经授权的操作以实现远程注入攻击。现有的防御机制主要集中于使用物理事件指纹对事件交易的验证,以实施安全策略以阻止不安全的事件交易。这些方法旨在提供防止注射攻击的离线防御。最新的在线防御机制提供了实时防御,但是对攻击推断对物联网网络的推断影响的可靠性限制了这些方法的概括能力。在本文中,我们提出了一个独立于平台的多代理在线防御系统,即限制,以应对运行时的远程注射攻击。限制允许国防代理在运行时介绍攻击动作,并利用强化学习来优化符合IoT网络安全要求的国防政策。实验结果表明,防御代理有效地采取了针对复杂和动态远程注射攻击的实时防御动作,并通过最小的计算开销来最大化安全增益。索引术语 - 事物的内部,触发器平台,重新注射攻击,强化学习,深度复发Q网络,多代理系统。
存在强化学习之类的应用,例如医学,其中政策需要被人类“解释”。用户研究表明,某些政策类可能比其他政策类更容易解释。但是,进行人类的政策解释性研究是昂贵的。此外,没有明确的解释性定义,即没有明确的指标来解释性,因此主张取决于所选的定义。我们解决了通过人类解释性的经验评估政策的问题。尽管缺乏明确的定义,但研究人员对“模拟性”的概念达成了共识:政策解释性应与人类如何理解所给出的政策行动有关。为了推进可解释的强化学习研究,我们为评估政策解释性做出了新的方法。这种新方法依赖于代理来进行模拟性,我们用来对政策解释性进行大规模的经验评估。我们使用模仿学习来通过将专家神经网络提炼为小程序来计算基线政策。然后,我们表明,使用我们的方法来评估基准解释性会导致与用户研究相似的结论。我们表明,提高可解释性并不一定会降低表现,有时会增加它们。我们还表明,没有政策类别可以更好地跨越各个任务的可解释性和绩效进行交易,这使得研究人员有必要拥有比较政策可解释性的方法。
摘要 - 双方机器人由于其拟人化设计,在各种应用中提供了巨大的潜力,但其结构的复杂性阻碍了它们的控制。当前,大多数研究都集中在基于本体感受的方法上,这些方法缺乏克服复杂地形的能力。虽然视觉感知对于在以人为中心的环境中运作至关重要,但其整合使控制进一步复杂化。最近的强化学习(RL)方法已经显示出在增强腿部机器人运动方面的希望,特别是基于本体感受的方法。然而,地形适应性,尤其是对于两足机器人,仍然是一个重大挑战,大多数研究都集中在平坦的情况下。在本文中,我们介绍了专家教师网络RL策略的新型混合物,该策略通过一种简单而有效的方法来增强基于视觉投入的教师策略的绩效。我们的方法将地形选择策略与教师政策结合在一起,与传统模型相比,表现出色。此外,我们还引入了教师和学生网络之间的一致性损失,而不是强制实施相似之处,以提高学生驾驶各种地形的能力。我们在Limx Dynamic P1 Bipedal机器人上实验验证了我们的方法,证明了其跨毛线地形类型的可行性和鲁棒性。索引术语 - Bipedal机器人,增强学习,视觉感知的控制