平均奖励强化学习(RL)为捕获目标提供了合适的框架(即长期平均奖励)对于持续的任务,通常没有自然的方法来识别折扣面。但是,现有的平均奖励rl al-gorithms具有样本复杂性保证是不可行的,因为它们将马尔可夫决策过程(MDP)的(未知)混合时间输入。在本文中,我们在解决此开放概率方面取得了初步的进展。我们设计一个可行的平均奖励Q-学习框架,不需要任何问题参数作为输入。我们的框架基于折扣Q-学习,同时我们动态地调整了分歧因子(以及有效的地平线),以逐步近似平均值。在同步设置中,我们解决了三个任务:(i)学习一种策略至最佳,(ii)估计具有ϵ准确度的最佳平均值,并且(iii)估计偏差函数(类似于q uncuntion dissed cunction cunction cunciented cunction cunction cunciented cunction cunciented cuntioncracy)。我们表明,通过精心设计的适应方案,(i)可以通过E O(SAT 8 Mix ϵ8)样品来实现,
设想的增强学习应用领域(RL)包括自动驾驶,精确农业和金融,所有这些都要求RL代理在现实世界中做出决定。在这些领域中采用RL方法的一项重大挑战是常规算法的非舒适性。尤其是RL的焦点通常是回报的预期值。期望值是无限多个轨迹的统计集合的平均值,这可能对平均个体的性能不信息。例如,当我们具有重尾回报分布时,整体平均值可以由罕见的极端事件主导。因此,优化期望值可能会导致策略,该政策产生了异常高回报,概率
奖励黑客[Skalse等,2022]是AI对齐的关键问题,尤其是在增强学习(RL)中。AI系统旨在优化特定的奖励,通常会发现意想不到的方式来最大化这种奖励,这与人类意图不同。真正的目标与模型所学的行为之间的这种错位可能会导致不安全或不良结果。解决奖励黑客攻击对于构建可靠与人类价值观相吻合的AI系统至关重要。通过人类反馈(RLHF)进行加强学习的主要奖励黑客攻击是因果错误识别[Tien等,2022]。当模型错误地学习动作与奖励之间的因果关系,导致其优化代理或虚假相关性而不是真实目标时,就会发生这种情况。例如,该模型可能会在其环境中操纵指标或利用快捷方式。这创建了一个方案,其中AI根据奖励功能看起来很成功,但无法实现预期的目标。该项目旨在探索是否准确识别奖励模型中的因果机制是否可以帮助减轻奖励黑客攻击。通过对推动理想行为的因果关系进行建模,我们希望将AI引导到更加一致的学习中。具体来说,该项目将调查将因果推断整合到奖励建模中以提高RLHF鲁棒性的方法,从而降低AI利用意外漏洞的风险。目标是了解因果推理如何有助于更好地对齐具有人为价值的AI系统。
我们提出计数奖励自动机 - 一个有限的状态机变体,能够建模任何奖励函数可作为正式语言表达的奖励函数。与以前的方法不同,该方法仅限于任务作为普通语言,我们的框架允许由不受限制的革命范围描述的任务。我们证明,配备了这样的抽象机器的代理能够解决一组更大的任务集,而不是使用当前方法。我们表明,增强功率的增加并不是以增加自动机复杂性的成本。提出了一系列学习算法,以利用自动机结构来提高样品效率。我们表明,可以使用大语言模型从自然语言任务描述我们的锻炼中所需的状态机器。经验结果表明,我们的方法在样本效率,自动机复杂性和任务完成方面优于竞争方法。
研究假设氯胺酮作为抗抑郁药的疗效现已确立,但其抗抑郁作用的基础机制尚未得到充分描述。在动物文献中的工作和人类的研究表明对抗乳酸和记忆重新稳固的特定作用。在这项研究中,研究人员将进一步探索氯胺酮对学习和记忆的影响,并在健康志愿者样本中衡量神经水平上相关的变化。参与者将被分配接受氯胺酮或安慰剂,并完成一组任务,这将使调查人员能够量化氯胺酮在氯胺酮输注后24小时学习奖励和惩罚和记忆的学习奖励,惩罚和记忆的影响。这项研究将帮助研究人员了解氯胺酮抗抑郁作用的基础,并帮助开发新的抑郁症治疗方法。
主要参考:伴随匹配:具有无内存随机最佳控制的微调流量和扩散生成模型。C. Domingo-Enrich,M。Drozdzal,B。Karrer,R。T。Q. Chen,ICLR2025。https://arxiv.org/abs/2409.08861
大脑奖励电路的核心组成部分伏击核(NAC)与广泛的行为和情绪状态有关。新兴证据主要是从最近的啮齿动物研究中借鉴的,这表明NAC在奖励和厌恶处理中的功能是多方面的。长时间的压力或药物使用会在NAC电路中诱导不良适应性神经元功能,从而导致病理状况。本评论旨在就NAC在动机行为调节中的作用提供全面和最新的见解,并突出需要进一步深入分析的领域。它综合了有关不同NAC神经元种群和途径有助于相反价值处理的最新发现。审查研究了一系列神经调节剂,尤其是单胺,如何影响NAC对各种动机状态的控制。此外,它探讨了诸如成瘾和抑郁等精神疾病的复杂基本机制,并评估了预期的干预措施以恢复NAC功能。
糟糕的学习成绩仍然是卢韦罗地区的主要挑战,这主要归因于教师奖励系统中的不成比例。因此,这项研究旨在探讨教师奖励挑战的挑战,影响卢韦罗地区选定的中学的学生学业表现。使用描述性研究设计,从108名参与者的样本中收集了数据。调查结果是,教师和管理人员的入学人物表明,教师奖励挑战,例如微薄的付款77.3%,奖励不高63.9%,没有认可的66.0%,教师的资金不足85.6,教师奖励系统的管理不善,薪酬差76.3%和薪水延迟74.5%,影响了84.5%的学生学业绩效。当前的教师奖励系统可能表明这些挑战继续对学生的学习成绩产生重大影响。针对教师奖励系统的干预措施,尤其是关于货币和非货币奖励,非延期薪水,无付款,认可方面的薪水,至关重要。
近年来,人工智能 (AI) 已成为我们日常生活中不可或缺的一部分,帮助我们做出决策。在这种交互过程中,AI 算法通常使用人类行为作为训练输入。因此,重要的是要了解人们在训练 AI 时是否会改变他们的行为,以及当训练对他们没有好处时他们是否会继续这样做。在这项工作中,我们在最后通牒游戏的背景下进行行为实验来回答这些问题。在我们的版本中,参与者被要求决定是否接受或拒绝其他人类参与者或 AI 提出的金钱分割提议。一些参与者被告知他们的选择将用于训练 AI,而其他参与者没有收到此信息。在第一个实验中,我们发现参与者愿意牺牲个人收入来训练 AI 变得公平,因为他们变得不太倾向于接受不公平的提议。第二个实验重复并扩展了这一发现,结果显示参与者有动力训练人工智能,即使他们将来永远不会遇到它。这些发现表明人类愿意付出成本来改变人工智能算法。此外,它们表明,人工智能训练过程中的人类行为不一定与基线偏好一致。这一观察结果对人工智能发展提出了挑战,表明人工智能算法在推荐选择时考虑其对行为的影响非常重要。
社会动机假说认为,自闭症谱系障碍 (ASD) 患者发现社交刺激的回报较少,因此与神经发育正常 (TD) 的人相比,他们对社交互动的积极性较低。然而,自闭症患者在社交互动过程中回报较少的社交刺激特征在很大程度上是未知的。与自我行动相关的他人的偶然积极反应激励了社交互动的早期发展,从而代表了一种社会奖励。由于自闭症患者在早年生活中经常对自我相关刺激表现出非典型反应,我们假设他人的自我相关反应对自闭症患者来说回报较少。为了检验这一假设,我们使用社交偶然任务进行了一项功能性磁共振成像研究。在任务期间,参与者试图通过讲有趣的笑话逗观众笑,从而激活 TD 个体的前额叶内侧前额皮质 (arMPFC) (Sumiya 等人,2017)。我们明确预测,arMPFC 的非典型激活与自闭症患者对他人的自我相关反应的奖励价值降低有关。31 名自闭症成年人和 24 名年龄和智商匹配的 TD 成年人参与了这项研究。自闭症患者报告称,在观众对他们自己的行为做出反应后,他们的愉悦感明显低于 TD 组。相应地,与 TD 组相比,ASD 组的 arMPFC 的自我相关激活(由我们之前的研究结果定义)有所减弱。目前的发现表明,自闭症患者的 arMPFC 介导的弱自我相关结果处理会削弱社交互动的奖励性质。