本文考虑了仅在达到某些最终状态(或此类实例的组成)时才能获得积极奖励的RL实例,例如迷宫探索出口时有大量积极的奖励。尽管这种设置显然受到限制,但本文指出,培训与一项政策相关的深层网络,然后仅通过平滑贝尔曼方程并添加对初始状态的积极限制,可以通过随机性或好奇心来完成,而在此设置中,即在0-loss假设下,就可以在0板的假设中表现出积极的阳性Q值,以至于是在0板的假设中(以下一个效果),因此它是在0-loss假设中的出现(以下是一个效果),因此它是在0板的假设中(以下是一个效果),因此一定是一个效果,因此,这是一个效果,因此,这是一个效果,以至于一定要么在0层状态下(以下情况下),因此,一定是一个效果。被锁定。从这种初始化中,可以使用包含通往良好出口的路径的重播缓冲区来完善经典的深Q学习。未来的作品应考虑此框架的实际实验。
摘要 - 增强学习(RL)在通过州行动 - 奖励反馈循环中优化多车合作驾驶策略的巨大潜力,但它仍然面临着诸如低样本效率之类的挑战。本文提出了一种基于稳态过渡系统的差异奖励方法,该方法通过分析交通流量特征将国家过渡梯度信息纳入奖励设计中,旨在优化多车辆合作决策中的行动选择和政策学习。在不同的自动驾驶汽车渗透率下,在RL算法(例如Mappo,MADQN和QMIX)中验证了所提出的方法的性能。结果表明,在交通效率,安全性和行动合理性方面,差异化奖励方法显着加速了培训的融合,并优于核心奖励和其他方面的奖励。此外,该方法表现出强大的可扩展性和环境适应性,为在复杂的交通情况下制定多机构合作决策提供了一种新颖的方法。
在许多现实世界中,代理商的奖励信号非常稀疏,这使得学习有效的奖励功能以进行奖励构成挑战。为了解决这个问题,我们的方法不仅可以通过非零奖励过渡,而且还采用半监督学习(SSL)技术(SSL)技术以及新的数据增强来学习轨迹空间代表性,从大多数过渡,从而提高奖励奖励Shaping Shaping shaping shaping shaping shaping shaping。Atari和机器人操作中的实验结果表明,我们的方法有效地将奖励概括为稀疏的奖励场景,与好奇心驱动的方法相比,达到更高的最佳分数表现。拟议的双熵数据增强增强了性能,显示出比其他增强方法的最佳分数提高15.8%。
抽象的奖励成型已被证明是加速增强学习过程(RL)代理的有效技术。虽然在经验应用方面取得了成功,但良好的塑形功能的设计原则上的理解较少,因此通常依赖于领域的专业知识和手动设计。为了超越这个限制,我们提出了一种新型的自动化方法,用于设计离线数据的奖励功能,可能被未观察到的混杂偏见污染。我们建议使用从离线数据集计算出的因果状态值上限作为对最佳状态价值的保守乐观估计,然后用作基于潜在的基于潜在的重新塑造(PBR)的状态电位。根据UCB原则,将我们的塑造功能应用于无模型学习者时,我们表明,它比学习者而没有塑造的学习者享有更好的差距遗憾。据我们所知,这是通过在线探索中限制PBR的第一个依赖差距的遗憾。模拟支持理论发现。
1 莱布尼茨神经生物学研究所,学习和记忆遗传学系,马格德堡,39118,德国,2 莱比锡大学生物研究所动物生理学系,莱比锡,04103,德国,3 莱比锡大学生物研究所遗传学系,莱比锡,04103,德国,4 魏茨曼科学研究所分子细胞生物学系,雷霍沃特,7610001,以色列,5 亚琛工业大学成像和计算机视觉研究所,亚琛,52074,德国,6 波多黎各大学医学科学园区神经生物学研究所,旧圣胡安,波多黎各,00901,7 剑桥大学生理学、发育和神经科学系,剑桥,CB2 3EL,英国,8 珍妮莉亚研究园区,霍华德休斯医学研究所,阿什本, 20147,弗吉尼亚州,9 莱布尼茨神经生物学研究所,组合神经影像核心设施,马格德堡,39118,德国,10 加利福尼亚大学,分子,细胞和发育生物学系,加利福尼亚州洛杉矶 90095-1606,11 巴黎萨克雷大学,国立科学研究中心,巴黎萨克雷神经科学研究所,萨克雷,91400,法国,12 行为脑科学中心,马格德堡,39106,德国,13 奥托冯格里克大学生物学研究所,马格德堡,39120,德国
抽象的慢性不健康的睡眠行为是情绪和焦虑症出现的主要危险因素。尽管如此,我们仍然缺乏理解,为什么有些人比其他人更容易受到睡眠中断引起的情感失调。有了初步证据表明,在积极和负面情绪处理过程中的大脑活动可能起重要的调节作用,我们在大量健康的年轻人中进行了全脑静止状态功能连接分析(n = 155)。使用在失眠症障碍中始终影响的区域,我们研究了与睡眠质量相关的神经连通性模式,这些模式对与各个奖励和惩罚处理的措施的相互作用既不敏感又敏感,并评估了与情感健康索引的联系。大多数发现反映了睡眠质量和增强敏感性之间的相互作用,而良好的卧铺和贫困者则报告了相反的关联。这样的连接之一是,前中央回和后岛之间的耦合与特质焦虑症相关,其连通性值在较差的卧铺中观察到最低的连通性值,对惩罚较高敏感。反过来,唯一与睡眠质量相关的发现,即在亚果中扣带回皮层和丘脑之间的耦合也与习惯使用情绪抑制策略有关。关键词睡眠质量; fMRI;功能连通性;对惩罚的敏感性;对奖励的敏感性;情绪调节;焦虑因此,本研究提供了证据表明,情感功能在确定睡眠质量不良对大脑连通性和情绪健康的影响方面起着至关重要的作用,这为为什么某些人比其他人更容易受到与其他人相关的情感失调的影响提供了合理的机制。
国家和国际获奖者将在德国领先的研究机构(最多)三个月的一家领先的研究机构获得资助的研究逗留。他们还将在今年的德国中心举行鼓舞人心的斯普林镇见面 - 这个机会并非保留给获奖者。也欢迎有限的其他奖励!
主要参考:伴随匹配:具有无内存随机最佳控制的微调流量和扩散生成模型。C. Domingo-Enrich,M。Drozdzal,B。Karrer,R。T。Q. Chen,ICLR2025。https://arxiv.org/abs/2409.08861
成人和儿童都通过反馈来学习将环境事件和选择与奖励联系起来,这一过程称为强化学习 (RL)。然而,用于评估儿童 RL 相关神经认知过程的任务有限。这项研究在记录事件相关电位 (ERP) 的同时,在青春期前儿童 (8-12 岁) 中验证了概率奖励学习任务的儿童版,重点关注:(1) 奖励-反馈敏感性 (额叶奖励相关积极性,RewP),(2) 对反馈的晚期注意力相关反应 (顶叶 P300),以及 (3) 注意力转向喜爱的刺激 (N2pc)。从行为上讲,正如预期的那样,青春期前儿童可以学习刺激-奖励结果关联,但表现水平各不相同。与学习优秀的学生相比,学习较差的学生表现出更大的 RewP 振幅。学习策略(即赢-输-留下-转移)由反馈诱发的 P300 振幅反映。最后,注意力会转移到待选择的刺激上,这一点由 N2pc 证明,但不会像成年人那样转移到奖励更高的刺激上。这些发现为青少年 RL 背后的神经过程提供了新的见解。
