图1:大鼠的试验开始时间是由状态和发情阶段的值调节的。a。行为范式的示意图。b。任务的块结构带有示例会话(顶部)和每个块中的奖励分布(底部)。c。一个示例大鼠的跨块的平均降解试验启动时间。在低和高块中的起始时间显着不同,p << 1×10-20,双面Wilcoxon秩和测试,误差线是置信区间(CIS)。d。跨population的启动时间对块(低 - 高块)的敏感性与零,一侧Wilcoxon签名的等级测试p << 1×10-20,n = 303。e。示意图描述强化学习模型。启动时间与试验(t)中的状态价值(V t)成反比,当该试验提供奖励(R T)时,该启动时间通过奖励预测错误(δ)而更新。学习率(α)确定在状态值估计中权衡先前的奖励(r t-n)的程度。f。在所有大鼠的混合块期间,在混合块中,脱机试验启动时间的中值回归系数是奖励的函数。
摘要。使用给定的重新函数优化文本对图像扩散模型是一个重要但毫无争议的研究领域。在这项研究中,我们提出了深度奖励调整(DRTUNE),该算法直接监督文本到图像扩散模型的最终输出图像,并通过迭代采样过程向输入噪声进行后退。我们发现,采样过程中的较早步骤对于低水平的奖励至关重要,并且可以通过停止denoing net-work-work-work-work输入的梯度来有效地实现深层监督。Drtune在各种奖励模型上进行了广泛的评估。它始终优于其他算法,尤其是对于所有浅层监督方法失败的低级控制信号。此外,我们通过DRTUNE微调稳定扩散XL 1.0(SDXL 1.0)模型,以优化人类偏好得分v2.1,从而导致有利的扩散XL 1.0(FDXL 1.0)模型。FDXL 1.0显着提高了图像质量,并且与Midjourney v5.2相比,质量可比。5
通讯作者:伊利诺伊大学心理学系玛格丽特·沃尔(Margaret Wardle),芝加哥大学,芝加哥1007 W.哈里森街,芝加哥伊利诺伊州60607,mardle@uic.edu。贡献者:玛格丽特·沃尔(Margaret Wardle):概念化,正式分析,调查,写作 - 原始草案,写作 - 审查和编辑,监督,项目管理,资金获取; Jennifer K. Hoots:调查,写作 - 原始草稿,写作 - 评论和编辑;克里斯塔·米洛斯拉夫(Krista Miloslavich):调查,写作 - 原始草稿,写作 - 评论和编辑;塞西莉亚·努涅斯(Cecilia Nunez):调查,写作 - 原始草稿,写作 - 评论和编辑; Constanza de Dios:正式分析,写作 - 原始草稿,写作 - 评论和编辑;克里斯托弗·霍顿(Christopher Holden):调查,写作 - 审查和编辑; Aneet Aluwahlia:调查,写作 - 审查和编辑;查尔斯·格林(Charles E. Green):概念化,写作 - 评论和编辑;斯科特·莱恩(Scott Lane) - 概念化,写作 - 评论和编辑; Joy M. Schmitz - 概念化,监督,写作 - 审查和编辑
LLM自我训练中的最新方法主要依赖于LLM生成重音,并以正确的输出答案作为培训数据过滤那些。这种方法通常会产生低质量的微调训练集(例如,计划不正确或中间推理)。在本文中,我们开发了一种加强的自我训练方法,称为REST-MCTS ∗,基于将过程奖励指导与树搜索MCTS ∗集成在一起,用于收集高质量的推理痕迹以及每步价值以培训政策和奖励模型。REST-MCT ∗避免了通常用于通过基于树搜索的强化学习来训练过程奖励的每个步骤手动注释:给定的最终正确答案,REST-MCTS ∗能够通过估算此步骤的概率来推断正确的过程奖励,可以帮助您带来正确的答案。这些推断的奖励提供了双重目的:它们是进一步完善过程奖励模型的价值目标,并促进选择高质量的痕迹进行政策模型自我训练。我们首先表明,与先前的LLM推理基线相比,REST-MCTS ∗中的树搜索策略(如在相同的搜索预算中)具有更高的精度。然后,我们证明,通过使用该搜索策略作为培训数据所搜索的痕迹,我们可以不断增强多种迭代的三种语言模型,并超过其他自我训练算法(例如REST EM和自我奖励LM)。我们在https://github.com/thudm/rest-mcts上发布所有代码。
Clemens C. C. Bauer, 1 , 2 , 5 Julia Leonard, 6 Hannah Grotzinger, 7 Melissa A. Giebler, 8 Yesi Camacho Torres, 1 Andrea Imhof, 9 Rachel Romeo, 10 * and John D. E. Gabrieli 1 , 2 * 1 McGovern Institute for Brain Research, Massachusetts Institute of Technology, Cambridge, Massachusetts, 2 Department of大脑和认知科学,马萨诸塞州技术研究院,马萨诸塞州剑桥,3个言语和听力的课程生物科学与技术计划,哈佛大学,马萨诸塞州剑桥,马萨诸塞州4,内布拉斯加州林肯大学心理学系4,内布拉斯加州林肯大学,内布拉斯加州,内布拉斯加州,康夫斯顿大学,林肯大学5号。加利福尼亚大学,加利福尼亚州圣巴巴拉大学心理与脑科学,纽约州哥伦比亚大学8师学院,纽约,俄勒冈大学9号心理学系,俄勒冈大学,俄勒冈大学,人类发展与定量方法论和量化方法论,聆听与言论科学,以及玛丽·玛丽学院公园,玛丽·玛丽学院公园,玛丽·帕尔特·科学界的计划,
摘要 - 通过人工智能(AI)基于人工智能(AI)基于人工智能的沟通优化仍然是基础的基础。作为第六代(6G)通信网络追求全赛纳里奥的覆盖范围,在复杂的极端环境中的选择提出了未经证实的挑战。这些环境的动态性质,结合物理约束,使AI解决方案(例如深度强化学习(DRL))很难为培训过程获得有效的奖励反馈。但是,许多现有的基于DRL的网络优化研究通过理想化的环境设置忽略了这一挑战。受到生成AI(Genai)(尤其是扩散模型)的强大功能的启发,在捕获复杂的潜在分布时,我们引入了一种新颖的基于扩散推理的奖励成型方案(着装),以实现强大的网络优化。通过对观察到的环境状态进行调节和执行动作,着装利用扩散模型的多步降级过程作为深层推理的一种形式,逐渐完善了潜在表示,以产生有意义的辅助奖励信号,以捕获网络系统模式。此外,连衣裙设计用于与任何DRL框架的无缝集成,允许连衣裙辅助的DRL(装扮得出)即使在极端的网络环境下也可以实现稳定而有效的DRL培训。实验结果表明,穿着的DRL大约达到1。礼服代码可从https://github.com/nice-hku/dress获得。与基线方法相比,在稀疏奖励无线环境中的收敛速度比其原始版本快于其原始版本,并且在多个一般DRL基准环境中的性能得到了显着改进。
多目标加固学习(MORL)方法通过学习最大化的政策来解决现实世界中的问题,以不同的用户偏好加权。典型方法假定目标在整个代理人的寿命中都没有变化。,在某些现实情况下,代理商可能会遇到动态改变学习的方法,即在不同的学习阶段,不同的矢量值奖励功能。在概率公式或算法设计中尚未考虑这个发展目标的问题。为了解决这个问题,我们首次将设置作为连续的MORL(CMORL)问题,这是为了通过学习过程的目标发展。随后,我们提出了通过Re Ward Model Re re Hearsal(Cor E 3)学习的c ontinual多O型信息,从而使动态代理网络不合转,以快速适应新目标。此外,我们开发了一种奖励模型彩排技术,以恢复以前目标的重新信号,从而减轻灾难性的遗忘。在四个CMORL基准测试基准上进行的实验展示了Cor E 3有效地学习满足所有遇到的目标的不同偏好的政策,并以171%的态度表现出最佳的基线,突显了Cor E 3的能力,可以处理具有渐进目标的情况。
摘要 肠道激素生长素释放肽会驱动食物动机并增加食物摄入量,但它也参与对食物以外的奖励的预期和反应。这项预先注册的研究调查了自然变化的生长素释放肽浓度如何影响人类对触摸作为社会奖励的处理。67 名志愿者在两天的测试期间接受了缓慢爱抚触摸(所谓的 CT 靶向触摸)作为社会奖励,并在小腿上接受了控制触摸,期间进行了 3T 功能成像。一次,参与者禁食,另一次,他们吃了一顿饭。在每次实验中,都会在三个时间点测量血浆生长素释放肽。所有触摸都被评为饭后更令人愉快,但生长素释放肽浓度与愉悦感之间没有关联。CT 靶向触摸被评为最令人愉快和最不愉快的触摸。
摘要 - 强化学习已成为自动驾驶的重要方法。使用奖励功能来加强学习来建立学习的技能目标,并指导代理商实现最佳政策。由于自主驾驶是一个复杂的领域,其目标部分具有不同程度的优先级,因此制定合适的奖励功能代表了一个基本挑战。本文旨在通过评估文献中的不同提出的公式,并将个人目标分为安全,舒适,进度和交通规则规则合规性类别,以突出这种功能设计中的差距。此外,还讨论了审查奖励功能的局限性,例如目标汇总和对驾驶环境的无动于衷。此外,奖励类别通常是不足的,缺乏标准化。本文通过提出未来的研究来结束,该研究有可能解决奖励中观察到的短暂作用,包括一个奖励验证框架和背景意识并能够解决冲突的结构性奖励。
通过强化学习来自动综合机器人系统的政策,依赖于奖励信号并密切指导。因此,该信号应忠实地反映出设计师的意图,这些意图通常被表示为高级要求的集合。几项工作正在从正式要求中开发自动奖励定义,但是它们在产生既有有效培训又能够满足多种异质要求的信号时表现出局限性。在本文中,我们将任务定义为一组部分安全,目标和舒适性要求,并引入一种自动化方法,以在奖励信号中执行自然秩序。我们通过将要求自动转化为安全性,目标和舒适性奖励的总和来执行此操作,其中目标奖励是安全奖励的函数,而舒适奖励是安全和目标奖励的函数。使用基于潜在的公式,我们增强了稀疏到密集的奖励,并正式证明了这一点以保持政策最佳性。我们称我们的新方法分层,基于潜在的奖励成型(HPRS)。我们对八个机器人基准测试的实验表明,HPRS能够生成满足复杂层次要求的政策。此外,与最新技术相比,HPR相对于保留职位的政策评估指标,达到了更快的融合和卓越的性能。通过自动平衡竞争要求,HPRS可以通过改进的舒适度和无手动参数调整生成任务满意的政策。通过消融研究,我们分析了各个需求类别对紧急行为的影响。我们的实验表明,当与目标和安全保持一致时,HPR从舒适性要求中受益,并且在与安全或目标要求冲突时会忽略它们。最后,我们验证了HPRS在现实世界机器人技术应用中的实际可用性,包括使用第1辆车的两个SIM到现实实验。这些实验表明,任务规范的层次设计有助于SIM到现实的传输,而无需任何领域的适应性。