我们考虑在马尔可夫决策过程中学习,在马尔可夫决策过程中,我们没有明确地赋予重新功能,但是我们可以在这里遵守专家,以展示我们想学习的任务。此设置在应用程序(例如驾驶任务)中很有用,很难写下明确的奖励功能,以准确地指定应如何交易不同的desiderata。我们认为专家试图最大程度地发挥奖励功能,该奖励功能可作为已知功能的线性组合,并给出了一种学习专家所展示的任务的算法。我们的al-gorithm基于使用“逆增强学习”来试图恢复未知的奖励功能。我们表明,我们的算法终止了少数迭代,即使我们可能永远无法恢复专家的奖励功能,算法的策略也将达到与专家接近的绩效,在此,在此,相对于Expt exptt的未知奖励函数,在这里可以衡量。
在这项研究中,我们评估了自主驾驶(AD)系统中增强学习的鲁棒性(RL),特别是反对对抗攻击的稳健性。我们采用了Karavolos等人提出的基于Q学习的AD模型。[1]的简单性,是我们分析的基础。此选择使我们能够在简单的Q学习方法和更复杂的RL系统之间进行明显的比较。我们设计了两个威胁模型,以模拟对基于RL的广告系统的对抗性攻击。第一个模型涉及在RL模型的细调中注入未发现的恶意代码,使其容易受到对抗性扰动的影响,这可能会导致在特定的触发条件下碰撞。第二个威胁模型旨在通过直接改变RL模型在特定触发条件下的行动决策来引起碰撞,这代表了一种更隐秘的方法。基于这些威胁模型,我们对两种主要情况的实证研究提出:操纵传感器输入和直接对动作的扰动。研究结果表明,尽管基于RL的AD系统表现出针对传感器输入操纵的弹性,但在受到直接动作扰动时它们会表现出脆弱性。主要的和宽容的场景涉及更改传感器读数,例如在偏心转弯期间,这可能会误导系统并可能导致事故。这对于小误差很大的操作至关重要。第二种情况直接扰动动作,更多地是对基于RL的AD系统脆弱性的理论研究,而不是实用的现实世界威胁。
Bozorgmehry Boozarjomehry,G。(2025)。通过模仿学习和强化学习工程设计自动化(硕士论文,加拿大卡尔加里大学,卡尔加里大学)。从https://prism.ucalgary.ca检索。
电气和电子工程师协会 › iel7 作者 VHL Lopes · 2022 · 被引用 1 — 作者 VHL Lopes · 2022 被引用 1 与信道建模和仿真相关,特别关注... 采用的块结构可以表示标准的多帧组织。 17 页
单粒子冷冻电子显微镜(Cryo-EM)已成为主流结构生物学技术之一,因为它具有确定动态生物分子的高分辨率结构的能力。但是,冷冻EM数据获取仍然是昂贵且劳动力密集的,需要大量的专业知识。结构生物学家需要一种更高效,更客观的方法来在有限的时间范围内收集最佳数据。我们将Cryo-EM数据收集任务制定为这项工作中的优化问题。目标是最大化指定期间拍摄的好图像的总数。我们表明,强化学习是一种有效的方法来计划低温EM数据收集,并成功导航异质的低温EM网格。我们开发的AP-PRACH,CRYORL,在类似设置下的数据收集的平均用户表现出了更好的表现。
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
摘要 - 使用无人驾驶汽车(无人机)的搜索和救援应用也称为无人机,由于其对生态系统和人员的影响很大,因此正在成为行业和学术界感兴趣的研究主题。探索灾区是搜救和救援的关键要素,以确定需要立即援助或具有较高危险概率的区域。本文旨在使用无人机对灾区的覆盖范围优化。我们将重点放在研究的情况下。所提出的方法由两个主要部分组成:i)暹罗网络用于识别卫星图像中的浮游建筑物,ii)ii)感兴趣的点被转换为合适的迷宫环境,随后,任何增强学习(RL)结构用于区域覆盖范围以进行区域覆盖范围。在这里,RL体系结构的目标是通过优化时间和以前访问的区域来确保无人机覆盖完整的环境。实验以显示当前方法的好处和挑战。