设计奖励功能是强化学习(RL)实践的关键但具有挑战性的任务,通常要求领域的努力和实质性的努力。最近的研究探索了大型语言模型(LLMS)通过进化搜索技术生成奖励功能的利用(Ma等人,2023)。但是,这些方法忽略了多模式信息的潜力,例如图像和视频。尤其是先前的方法主要依赖于RL环境中的数值反馈来进行进化,忽略了训练过程中所遵循的视觉数据。这项研究通过采用多模式的大语言模型(MLLM)来制作针对各种RL任务量身定制的重新功能,从而引入了一种新颖的方法。该方法涉及向MLLM提供RL环境代码以及其图像作为上下文和任务信息,以奖励候选人。然后,所选代理人接受培训,并作为对MLLM的反馈提供了来自环境的数值反馈以及最佳策略的记录视频。通过通过进化搜索采用迭代反馈机制,MLLM始终完善奖励函数以最大程度地提高准确性。对两种不同的代理进行测试指出了我们的方法比以前的方法相比,这本身超过了83%(Ma等人,2023)由人类专家设计的奖励功能。
代码完成旨在通过基于当前的编程环境预测潜在代码来提高编程生产率。最近,预先训练的语言模型(LMS)在这一领域变得突出。已经提出了各种方法使用监督的调整(SFT)技术来完成代码完成。但是,这些模型的固有暴露偏见可能会导致序列完成的早期累积错误,从而导致随后完成的更多错误。为了解决这个问题,深度加强学习(DRL)是用于完成代码完成LMS的替代技术,可以提高概括能力和整体性能。然而,将基于DRL的策略整合到代码完成中面临两个主要挑战:1)代码上下文的动态性质要求完成模型快速适应变化,这为传统的DRL策略构成了困难,该策略的重点是延迟奖励最终代码状态。2)很难评估部分代码的正确性,因此,基于奖励再分配的策略不能适应代码完成。为了应对这些挑战,我们提出了Ircoco,这是一个基于DRL的代码完成框架。此框架旨在提供即时的奖励,作为检测代码完成期间连续编辑引起的动态上下文更改的反馈。借助即时反馈,精细调整的LM可以更加精确地了解当前上下文,从而有效地调整LM并以更重新确定的方式优化代码完成。实验结果表明,使用IRCOCO进行的精细培训的LMS导致代码完成任务的显着改进,表现优于基于SFT和其他基于DRL的基础线。
正确的奖励模型规范是增强学习的众所周知的挑战。手工制作的奖励功能通常会导致效率低下或次优政策,并且可能与用户值不符。从Human Feffack中学习的强化学习是一种成功的技术,可以减轻此类问题,但是,人类反馈的收集可能会很费力。最近的著作已从预先训练的大语言模型而不是人类中征求反馈,以减少或消除人类的努力,但是,在存在幻觉和其他错误的情况下,这些方法会产生较差的表现。在本文中,我们研究了从大语言模型反馈中进行强化学习的优点和限制,并提出了一种简单而有效的方法,用于征求和将反馈作为基于潜在的塑造功能。我们从理论上和经验上表明,与先前的工作相比,我们的方法会导致更高的政策回报,即使有重大的排名错误,并消除了对奖励功能进行复杂后处理的需求。
摘要 - 强化学习(RL)通过最大程度地提高奖励功能以实现最佳政策来推进自主驾驶技术,在推进自主驾驶技术方面起着至关重要的作用。但是,在许多实践中,制定这些奖励功能一直是一个复杂的手动过程。为了降低这种复杂性,我们引入了一个新颖的框架,该框架将大型语言模型(LLMS)与RL集成在一起,以改善自主驾驶中的奖励功能设计。该框架利用在其他领域证明的LLM的编码功能来为高速公路场景生成和进化奖励功能。框架首先要指示LLM基于驾驶环境和任务描述创建初始奖励功能代码。然后,通过涉及RL培训和LLMS的反射的迭代周期来完善此代码,从而使其审查和改善产出的能力受益。我们还开发了一个特定的提示模板,以提高LLMS对复杂驾驶模拟的理解,从而确保生成有效且无错误的代码。我们在三种交通配置的高速公路驾驶模拟器中进行的实验表明,我们的方法超过了手工制作的奖励功能,达到了平均成功率22%。这不仅表明了更安全的驾驶,而且还表明了开发生产率的显着提高。
海报会议 海报编号 1 Jala Ahmed,西奈山伊坎医学院 树突状细胞通过嵌合突触加速辐照肿瘤中的 CAR T 细胞 海报编号 2 Adam Bailey,威斯康星大学麦迪逊分校 非闭塞性肠系膜缺血诱发严重黄热病中毒期 海报编号 3 Mariko Bennett,费城儿童医院 什么控制着小胶质细胞的病毒限制? 海报编号 4 Hsiao-Tuan Chao,贝勒医学院 由 PPFIA3 罕见变异引起的综合征性神经发育障碍 海报编号 5 Emily Ferenczi,麻省总医院;哈佛医学院 苍白球对动机行为的调节 海报编号 6 Sarah Hill,丹娜法伯癌症研究所 BRCA1 作为 ORFIUS 复合体的一部分,在复制起点调节中发挥作用 海报编号 7 Chi-Min Ho,哥伦比亚大学 原位 CryoET 揭示疟原虫的翻译动力学 海报编号 8 Steven Jonas,加州大学洛杉矶分校 用于纠正气道干细胞中引起囊性纤维化的突变的货物无关脂质纳米粒子 海报编号 9 Maia Kinnebrew,斯坦福大学 识别控制细胞表面胆固醇稳态的新基因 海报编号 10 Sergey Ovchinnikov,麻省理工学院 蛋白质语言模型学习相互作用序列基序的进化统计数据 海报编号 11 Margaux Pinney,加州大学旧金山分校 数十亿年进化过程中酶催化的适应性
自动驾驶汽车赛车引起了广泛的兴趣,因为它在极限的自动驾驶中具有巨大的潜力。基于模型和基于学习的方法已被广泛用于自主赛车。但是,基于模型的方法在仅可用局部感知时无法应对动态环境。作为比较,基于学习的方法可以在本地感知下处理复杂的环境。最近,深度强化学习(DRL)在自主赛车上越来越受欢迎。DRL通过处理复杂情况并利用本地信息来优于传统的基于学习的方法。DRL算法,例如近端政策算法,可以在自动驾驶竞争中的执行时间和安全性之间达到良好的平衡。但是,传统DRL方法的训练结果在决策中表现出不一致的正确性。决策中的不稳定引入了自动驾驶汽车赛车的安全问题,例如碰撞到轨道边界中。所提出的算法能够避免碰撞并提高训练质量。在物理发动机上的仿真结果表明,所提出的算法在避免碰撞中的其他DRL算法优于其他DRL算法,在急剧弯曲期间实现更安全的控制以及多个轨道之间的较高训练质量。关键字:自动驾驶汽车赛车,本地规划,近端政策优化,平衡奖励功能。
G. Li得到了香港中国大学研究的部分支持。Y. Chen部分得到了Alfred P. Sloan Research奖学金,Google Research Scholar Award,AFOSR Grant FA9550-22-1-0198,ONR Grant N00014-22-1-2354和NSF Grants CCF-2221009和CCF-19076661。Y. Yan得到了普林斯顿大学的夏洛特·伊丽莎白(Charlotte Elizabeth Procter)荣誉奖学金和MIT的Norbert Wiener Postdoctoral奖学金的部分支持。J.FAN的研究得到了NSF Grants DMS-2210833和ONR Grant N00014-22-1-2340的部分支持。
Basic terms and definitions Base Cash Rewards — The Cash Rewards you will earn with each purchase Billing Cycle — The period of time between monthly bills or monthly billing statements, as defined in your Credit Card Agreement Bonus Cash Rewards — The additional Cash Rewards you can earn with certain purchases, as described herein Card — A Bank of America® Customized Cash Rewards Mastercard® or Visa® credit card Card Program — The Bank of America® Customized Cash Rewards program Cardholder (also referred to as “you”) — Individual Cardholders, Joint Cardholders and authorized users, if any, with a Card account and charging privileges (excluding corporations, partnerships or other entities) Cash Rewards — Rewards earned through use of the Card Choice Category — Purchases earn Bonus Cash Rewards made from one of the selected merchant types: gas & EV charging stations (default), online shopping, dining, travel, drug stores, or home improvement/furnishings.选择类别可以更改为未来购买客户奖金的每个日历月份一次,当您与美国合格帐户有合格关系时,您可以在净购买中获得10%的奖金,并在净购买中获得的奖金奖金 - 美国银行支票或储蓄帐户,与Merrill或Merrill®的合格现金管理帐户,或合格的529个帐户持有的529个帐户;符合条件的帐户由美国银行,N.A。联合持卡人 - 与主要持卡人共同承担帐户的全部责任;不包括授权用户商人 - 与我们签约以提供合作伙伴奖励提供净购买的商人 - 在此卡上进行的购买量;即使这张卡不是原始的付款方式奖励,即使您在参加合作伙伴奖励提供伙伴奖励报价的报价时,您的奖励奖励,而不是获得互惠奖励的纽约奖励,即使您获得的额外奖励的能力,即使您获得的奖励奖励,即 - 可选的福利和奖励计划,与此卡计划分开,美国银行客户/符合某些存款帐户和存款/投资余额标准的客户/美林客户。资格和入学要求以及其他计划详细信息可在bankofamerica.com/preferred-wordwards wards Primary Carddorder(卡帐户计划规则上名称为单位的持卡人),请参考本文档中的条款和条件,该条款和条件管理该卡计划;这些计划规则与您的卡
