设计奖励功能是强化学习(RL)实践的关键但具有挑战性的任务,通常要求领域的努力和实质性的努力。最近的研究探索了大型语言模型(LLMS)通过进化搜索技术生成奖励功能的利用(Ma等人,2023)。但是,这些方法忽略了多模式信息的潜力,例如图像和视频。尤其是先前的方法主要依赖于RL环境中的数值反馈来进行进化,忽略了训练过程中所遵循的视觉数据。这项研究通过采用多模式的大语言模型(MLLM)来制作针对各种RL任务量身定制的重新功能,从而引入了一种新颖的方法。该方法涉及向MLLM提供RL环境代码以及其图像作为上下文和任务信息,以奖励候选人。然后,所选代理人接受培训,并作为对MLLM的反馈提供了来自环境的数值反馈以及最佳策略的记录视频。通过通过进化搜索采用迭代反馈机制,MLLM始终完善奖励函数以最大程度地提高准确性。对两种不同的代理进行测试指出了我们的方法比以前的方法相比,这本身超过了83%(Ma等人,2023)由人类专家设计的奖励功能。
所有动物在其一生中都会不断面临各种情况,这些情况既是挑战(例如攻击、掠食),也是机遇(例如繁殖、觅食、栖息地选择)(详细综述,请参阅 O'Connell 和 Hofmann,2011 年)。在所有情况下,环境线索都会被感觉系统处理成有意义的生物信号,同时内部生理线索(例如条件、成熟度)和先前经验也会被整合在一起。这一过程通常会导致适应性的行为动作,即对动物有益的行为动作。为了实现这一点,动物的神经系统必须评估刺激的显著性并引发适合情境的行为反应。尽管在理解社会行为的生态和进化方面取得了巨大进展(Lorenz,1952;Tinbergen,1963;Lehrman,1965;von Frisch,1967;Krebs and Davies,1993;Stephens,2008),但人们对这些决定(例如关于配偶选择或领土防御)在大脑中的哪个位置做出以及这些大脑回路在脊椎动物进化过程中如何出现还不太了解。最近的研究已经开始揭示社会决策的神经基础。特别是在哺乳动物中,
与人类的偏好和/或意图保持一致是当代基础模型的重要要求。为了确保对准,诸如人类反馈(RLHF)等流行方法将任务分为三个阶段:(i)基于大型示范数据的监督微调(SFT)计算的模型,(ii)基于人类反馈数据和(III II)的估计,(ii)将使用(III)估算了(ii II),以进一步的模型(RL)进一步估算了该模型(RL)。演示和人类反馈数据以不同的方式反映了人类用户的偏好。结果,仅从人类反馈数据获得的奖励模型估计可能不如从演示和人类反馈数据获得的奖励模型估计值那么准确。一种优化从演示和人类反馈数据获得的奖励模型估计值的政策模型可能会表现出更好的对齐性能。我们引入了一种可访问的算法,以找到奖励和政策模型并提供有限的时间绩效保证。此外,我们通过广泛的实验(包括LLMS中的比对问题和Mujoco中的机器人控制问题)来证明所提出的解决方案的效率。我们观察到,所提出的解决方案的表现优于现有的对齐算法。
强化学习(RL)在机器学习算法的领域中脱颖而出,因为其独特的方法涉及代理与环境相互作用的代理,以发现最大程度地提高预期累积奖励的政策。这与监督的学习形成对比,后者依赖于预定的数据标签对来进行更正。在RL中,反馈信号仅来自环境中定义的奖励功能,这使得此奖励功能的设计至关重要。设计较差的奖励功能可以阻碍学习过程,并导致一项预测不良行动的政策[3],强调了RL仔细奖励功能工程的重要性。在为环境设计奖励功能时,尤其是对于机器人操纵任务时,常见的方法是将对象和目标之间的总距离或额外的奖励使用。例如,fetch [29]中的任务使用抓地力和目标位置之间的距离作为奖励,而Metaworld [44]中的拾取位置任务使用抓地力,对象和目标位置之间的距离,并带有额外的奖励,表明对象是否由抓手抓住。但是,这种奖励功能设计倾向于评估当前状态而不是动作本身。一种更强大的方法涉及基于动作的奖励指标,这些指标可以评估行动质量,考虑到诸如动作效率,路径优化和动态相互作用之类的因素。在机器人操纵任务中,要实现目标状态,必须首先实现一系列先决条件。仅在物体和目标位置之间的距离时设计奖励功能通常会错过一些先决条件。
过程奖励模型(PRM)已被证明有效地通过杠杆化增加推理时间计算来增强大语模型(LLMS)的数学推理。曾经对他们进行数学数据的主要训练,并且尚未严格研究其对非数学领域的普遍性。回应,这项工作首先表明当前的PRM在其他域中的性能较差。为了解决这一限制,我们引入了VESTAPRM,这是一种使用我们的新数据生成和注释方法生成的合成推理数据的多域PRM。ver-saprm实现了各种领域的一致性增长。例如,在MMLU-PRO类别中,通过加权多数投票的VersAPRM,比大多数投票基线获得了7.9%的表现增长,超过了QWEN2.5-MATH-PRM的增长1.3%。我们通过开放VersaPRM的所有数据,代码和模型来进一步为社区做出贡献。
与适应性应力相关的行为是多种复杂的精神疾病不可或缺的,并且已经很好地确定血清素能信号介导了这些不良适应状态的各个方面。在这些研究中,我们试图发现先前未定义的血清素能途径的功能,该途径从插入式核(IPN)到腹侧海马(VHIPP)。采用交叉逆行和化学遗传病毒释放策略来操纵IPN-VHIPP途径的功能。我们发现电路抑制对应对策略和自然奖励相关的行为的显着影响。具体而言,除了适度影响蔗糖消耗和食物自我促进外,对IPN-VHIPP途径的抑制大大增加了应力引起的逃生行为。在抑制这种途径时,VHIPP中血清素能5-HT 2A/2C受体的激动剂激活逆转了IPN-VHIPP电路抑制对主动逃生行为的影响,从而支持了行为效应的突触机制。IPN-VHIPP抑制不会引起一般运动,焦虑相关行为和静脉内尼古丁自我给药的差异。重要的是,这些发现与这种逃生行为中对5-羟色胺的规范理解相反,表明5-羟色胺以大脑中特定于途径的方式对行为产生相反的影响。综上所述,这些发现对我们对血清素能信号传导的理解以及相关的疾病症状治疗方法具有重要意义。
在加强学习(RL)中,从先前解决的任务中利用先验知识的能力可以使代理可以快速解决新问题。在某些情况下,可以通过组成先前解决的原始任务(任务组成)的解决方案来大致解决这些新问题。否则,可以使用先验知识来调整新问题的奖励功能,从而使光学策略保持不变,但可以更快地学习(奖励成型)。在这项工作中,我们开发了一个通用框架,用于奖励成型和任务组成,以熵进行的RL。为此,我们得出了一个确切的关系,该关系连接了具有不同奖励函数和动力学的两个熵调查的RL概率。我们展示了派生的关系如何导致熵调查的RL中奖励成型的一般结果。然后,我们将这种方法推广,以得出一个确切的关系,该关系连接最佳值函数,以在熵正则化的RL中组成多个任务。我们通过实验验证了这些理论贡献,表明奖励成型和任务综合会导致在各种环境中更快的学习。
正确的奖励模型规范是增强学习的众所周知的挑战。手工制作的奖励功能通常会导致效率低下或次优政策,并且可能与用户值不符。从Human Feffack中学习的强化学习是一种成功的技术,可以减轻此类问题,但是,人类反馈的收集可能会很费力。最近的著作已从预先训练的大语言模型而不是人类中征求反馈,以减少或消除人类的努力,但是,在存在幻觉和其他错误的情况下,这些方法会产生较差的表现。在本文中,我们研究了从大语言模型反馈中进行强化学习的优点和限制,并提出了一种简单而有效的方法,用于征求和将反馈作为基于潜在的塑造功能。我们从理论上和经验上表明,与先前的工作相比,我们的方法会导致更高的政策回报,即使有重大的排名错误,并消除了对奖励功能进行复杂后处理的需求。
摘要 - 强化学习(RL)通过最大程度地提高奖励功能以实现最佳政策来推进自主驾驶技术,在推进自主驾驶技术方面起着至关重要的作用。但是,在许多实践中,制定这些奖励功能一直是一个复杂的手动过程。为了降低这种复杂性,我们引入了一个新颖的框架,该框架将大型语言模型(LLMS)与RL集成在一起,以改善自主驾驶中的奖励功能设计。该框架利用在其他领域证明的LLM的编码功能来为高速公路场景生成和进化奖励功能。框架首先要指示LLM基于驾驶环境和任务描述创建初始奖励功能代码。然后,通过涉及RL培训和LLMS的反射的迭代周期来完善此代码,从而使其审查和改善产出的能力受益。我们还开发了一个特定的提示模板,以提高LLMS对复杂驾驶模拟的理解,从而确保生成有效且无错误的代码。我们在三种交通配置的高速公路驾驶模拟器中进行的实验表明,我们的方法超过了手工制作的奖励功能,达到了平均成功率22%。这不仅表明了更安全的驾驶,而且还表明了开发生产率的显着提高。
摘要 — 尽管在游戏人工智能(AI)开发方面取得了重大突破,但麻将作为一种流行的多人不完美信息游戏仍然颇具挑战性。与围棋和德州扑克等游戏相比,麻将具有更多的不可见信息、不固定的游戏顺序和复杂的计分系统,导致强化学习过程中的奖励信号具有很高的随机性和方差。本文通过将奖励方差减少(RVR)引入到一种新的自对弈深度强化学习算法中,提出了一种麻将人工智能。RVR通过相对价值网络处理不可见性,该网络利用全局信息引导模型在具有完美信息的预言机下收敛到最优策略。此外,RVR使用预期奖励网络提高了训练稳定性,以适应复杂、动态和高度随机的奖励环境。大量实验结果表明,RVR 显著降低了麻将 AI 训练中的方差,提高了模型性能。经过在一台拥有 8 个 GPU 的服务器上仅三天的自我对战训练,RVR 在 Botzone 平台上击败了 62.5% 的对手。索引术语 — 不完全信息博弈、多智能体学习、强化学习、麻将 AI