Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
深度加强学习(DRL)在许多复杂的决策任务中都取得了成功。然而,对于许多现实世界应用,标准的DRL培训在具有脆弱性能的代理商中恢复,特别是在关键问题问题上,发现安全和成功的策略都非常具有挑战性。已经提出了各种探索策略来解决这个问题。但是,他们没有考虑当前的安全性能的信息;因此,它们无法系统地在与培训最相关的状态空间部分上进行系统。在这里,我们提出了基于估计的深度强化学习(稀有)中的状态,该框架介绍了两种创新:(i)将安全评估阶段与国家修复阶段与国家修复阶段,即,在未访问的状态和(ii)估计的promiere extimies nefiperies of n.gap中,gap secried and gap secried seformist of the MAR均进行了iSe。我们表明,这两种创新都是有益的,并且在经验评估中,罕见的优于深度学习和探索等基线。
两种常见的顺序决策方法是人工智能规划 (AIP) 和强化学习 (RL)。每种方法都有优点和缺点。AIP 具有可解释性,易于与符号知识集成,并且通常很高效,但需要预先指定逻辑域,并且对噪声敏感;RL 只需要指定奖励,并且对噪声具有鲁棒性,但样本效率低下,不易获得外部知识。我们提出了一种将高级规划与 RL 相结合的综合方法,保留了可解释性、迁移和效率,同时允许对低级规划操作进行鲁棒学习。我们的方法通过在 AI 规划问题的状态转换模型和马尔可夫决策过程 (MDP) 的抽象状态转换系统之间建立对应关系,从 AIP 运算符定义分层强化学习 (HRL) 中的选项。通过添加内在奖励来学习选项,以鼓励 MDP 和 AIP 转换模型之间的一致性。我们通过比较 MiniGrid 和 N 室环境中 RL 和 HRL 算法的性能来展示我们的集成方法的优势,展示了我们的方法相对于现有方法的优势。
重新评估期中考试:学生将在考试期间访问他们的期中考试。担心如何在中期考试中有特定问题的学生可以在接受标记考试之日的两个星期内通过电子邮件向教练提交请求。请求应指定要重新评估哪个问题,(2)该请求的基本原理,以及(3)提出的标记。重要的是,一旦提交了重新评估请求,就可以根据教师的酌处权来调整标记。不允许学生与他们一起参加期中考试,也不可以为他们拍照,因此,如果令人担忧,建议学生在考试期间做笔记。TA无权在中期考试中进行权衡,这是教练只能做的事情。一旦重新评估问题,也可以注意标记。
[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸
大规模的基础设施系统对社会欢迎至关重要,其有效管理需要造成各种复杂性的战略前提和干预方法。我们的研究解决了涉及下水道资产的预后和健康管理(PHM)框架内的两个挑战:对跨严重水平的管道降解并制定有效的维护政策。我们采用多州降解模型(MSDM)来代表下水道管道中的随机降解过程,并使用深度加固学习(DRL)来制定维护策略。荷兰下水道网络的案例研究例证了我们的方法论。我们的发现证明了该模型在产生超过启发式方法的智能,节省成本的维护策略方面的效率。它根据管道的年龄来调整其管理策略,选择一种被动方法,用于新的管道,并过渡到较老的策略,以防止失败和降低成本。这项研究高光DRL在优化维护政策方面的潜力。未来的研究将通过合并部分可观察性,探索各种强化学习算法并将这种方法扩展到全面的基础架构管理,以改善模型。