人类通过感知和应对错误来实现高效的行为。错误相关电位 (ErrP) 是在感知错误时发生的电生理反应。有人提出利用 ErrP 来提高脑机接口 (BCI) 的准确性,利用大脑的自然错误检测过程来提高系统性能。然而,外部和环境因素对 ErrP 可检测性的影响仍然不太清楚,特别是在涉及 BCI 操作和感觉运动控制的多任务场景中。在此,我们假设感觉运动控制的困难会导致多任务处理中的神经资源分散,从而导致 ErrP 特征的减少。为了检验这一点,我们进行了一项实验,其中指示参与者将球保持在板上的指定区域内,同时尝试通过运动想象控制显示屏上的光标。BCI 以 30% 的随机概率提供错误反馈。根据感觉运动控制的难度,我们采用了三种场景——无球(单任务)、轻量球(简单任务)和重量球(困难任务)——来描述 ErrP。此外,为了研究多任务对 ErrP-BCI 性能的影响,我们离线分析了单次试验分类准确度。与我们的假设相反,改变感觉运动控制的难度不会导致 ErrP 特征发生显著变化。然而,多任务会显著影响 ErrP 分类准确度。事后分析显示,在单任务 ErrP 上训练的分类器在困难任务场景下准确度降低。据我们所知,这项研究是首次在离线框架内研究在涉及感觉运动控制和 BCI 操作的多任务环境中 ErrP 是如何被调节的。尽管 ErrP 特征保持不变,但观察到的准确度变化表明,在实现基于 ErrP 的实时 BCI 之前,需要设计考虑任务负荷的分类器。
我们为基于模型的强化学习提出了一种有效的知识转移方法,以应对在资源约束环境中部署大世界模型的挑战。我们的方法将高容量的多任务代理(3.17亿参数)提炼成紧凑的1M参数模型,从而在MT30基准测试中实现了最先进的性能,其归一化分数为28.45,比原始1M参数模型的18.93分数进行了实质性改进。这证明了我们的分解技术有效合并复杂多任务知识的能力。此外,我们还采用FP16训练后量化,在保持性能的同时将模型大小降低了50%。我们的工作弥合了大型模型和实际部署约束之间的差距,为机器人技术和其他资源有限的域中提供了可扩展的解决方案,可用于效率且可访问的多任务增强学习。
摘要 — 在多任务远程推理系统中,智能接收器(例如,指挥中心)使用从多个远程源(例如,边缘传感器)接收的数据特征执行多个推理任务(例如,目标检测)。在这些系统中促进及时推理的关键挑战来自 (i) 源的计算能力有限,无法从其输入中产生特征,以及 (ii) 信道的通信资源有限,无法同时将特征传输到接收器。我们开发了一种新颖的计算和通信协同调度方法,该方法确定特征生成和传输调度,以最大限度地减少受这些资源限制的推理错误。具体来说,我们将协同调度问题表述为弱耦合马尔可夫决策过程,以基于信息时代 (AoI) 的及时性来衡量推理错误。为了克服其 PSPACE 难度,我们分析了该问题的拉格朗日松弛法,从而得出增益指标,用于评估每个潜在特征生成-传输调度操作的推理误差的改善。在此基础上,我们开发了一种最大增益优先 (MGF) 策略,我们证明,随着推理任务数量的增加,该策略对于原始问题而言是渐近最优的。实验表明,MGF 相对于不同任务、渠道和来源的基线策略获得了显着的改进。
1 Department of Physics and Astronomy, University of Florence, Via G. Sansone 1, I-50019 Sesto F.no (Florence), Italy 2 Inf-Astro fi sic observatory of Arcetri, Largo E. Fermi 5, I-50125 Florence, Italy 3 School of Physics and Astronomy, University of St Andrews, North Haugh, ST Andrews, St Andrews. Ky16 9SS, UK 4 Inf-Observatory of Astro Phone and Spazio of the Space of Bologna, Via Piero Gobetti 93 /3, 40129 Bologna, Italy 5 GEPI, Observiire de Paris, PSL University, CNRS, Meudon, France 6 Cavendish Laboratory, University of Cambridge, 19 J. Thomson Ave., Cambridge CB3 0he, UK 7, UK 7卡夫利宇宙学研究所,剑桥大学,马德利路,剑桥CB3 0HA,英国8物理与天文学系,伦敦大学学院,伦敦高尔街,伦敦WC1E 6BT,英国9欧洲南部天obervoration,Karl-Schwarzsschild-Strassse 2, D-85748 Garching Bei Muenchen,德国1 Department of Physics and Astronomy, University of Florence, Via G. Sansone 1, I-50019 Sesto F.no (Florence), Italy 2 Inf-Astro fi sic observatory of Arcetri, Largo E. Fermi 5, I-50125 Florence, Italy 3 School of Physics and Astronomy, University of St Andrews, North Haugh, ST Andrews, St Andrews. Ky16 9SS, UK 4 Inf-Observatory of Astro Phone and Spazio of the Space of Bologna, Via Piero Gobetti 93 /3, 40129 Bologna, Italy 5 GEPI, Observiire de Paris, PSL University, CNRS, Meudon, France 6 Cavendish Laboratory, University of Cambridge, 19 J. Thomson Ave., Cambridge CB3 0he, UK 7, UK 7卡夫利宇宙学研究所,剑桥大学,马德利路,剑桥CB3 0HA,英国8物理与天文学系,伦敦大学学院,伦敦高尔街,伦敦WC1E 6BT,英国9欧洲南部天obervoration,Karl-Schwarzsschild-Strassse 2, D-85748 Garching Bei Muenchen,德国
视觉丰富文档理解 (VRDU) 领域旨在解决多模态领域中大量已得到充分研究的 NLP 任务。目前已有多个数据集用于研究 VRDU 的特定任务,例如文档分类 (DC)、关键实体提取 (KEE)、实体链接、视觉问答 (VQA) 等。这些数据集涵盖带有稀疏注释的文档(如发票和收据),因此它们支持一到两个相关任务(例如实体提取和实体链接)。遗憾的是,只关注单一特定类型的文档或任务并不能代表文档在实际中通常需要如何处理 — — 在实际中,文档的风格和要求会多种多样。在本文中,我们介绍了 BuDDIE(用于信息提取的业务文档数据集),1 这是第一个包含 1,665 份真实业务文档的多任务数据集,其中包含丰富而密集的 DC、KEE 和 VQA 注释。我们的数据集由美国州政府网站上的公开业务实体文件组成。这些文件的结构化和样式和布局因州和类型(例如表格、证书、报告等)而异。我们为 BuDDIE 提供了数据多样性和质量指标,以及每个任务的一系列基线。我们的基线涵盖了 VRDU 的传统文本、多模态和大型语言模型方法。
科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE,这是一个科学的长上下文理解、推理和信息提取基准,用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务:材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM,这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力,但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说,所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。
该文章的此版本已被接受以供出版,在同行评审(适用)之后(如果适用),并且受Springer Nature的AM使用条款的约束,但不是记录的版本,并且不反映后接受后的改进或任何更正。记录版本可在线获得:https://doi.org/10.1038/s41564-024-01656-3
离线增强学习的最新进展(RL)(Levine等人,2020年)使用预采用的数据集为现实世界中的培训政策开辟了可能的可能性(Kalashnikov等人。,2018年; Rafailov等。,2021; Kalashnikov等。,2021),自然语言处理(Jaques等人,2019年),教育(De Lima and Krohling,2021年),电力供应(Zhan等人,2022)和医疗保健(Guez等人,2008年; Shortreed等。,2011年; Wang等。,2018年;基利安等人。,2020)。虽然大多数离线RL研究都集中在单任务问题上,但是在许多实际情况下,多个任务是相关的,并且通过利用所有可用数据共同学习多个任务是有益的(Kalashnikov等人。,2018年; Yu等。,2021,2022; Xie and Finn,2022)。在这种情况下,一种流行的方法是多任务表示学习,该代理的目的是通过在相关任务之间提取共享的低维表示功能来解决问题,然后在此通用表示上使用简单功能(例如线性)来解决每个任务(Caruana,1997; Baxter,2000)。尽管多任务表示学习取得了经验成功,尤其是在增强学习在降低样品复杂性方面的功效方面的实现(Teh等人,2017年; Sodhani等。,2021; Arulkumaran等。,2022),对其的理论理解仍处于早期阶段(Brunskill和Li,2013年; Calandriello等人。,2014年; Arora等。,2020年; Eramo和Al。,2020年;胡和al。,2021; lu和al。,2021; Pacchiano的磨坊,2022年)。虽然
纳米孔测序是第三代测序技术,具有生成长阅读序列并直接测量DNA/RNA分子的修改,这使其非常适合生物学应用,例如人类端粒对象至tomemere(T2T)基因组组装,Ebola Virus Surveillance和Covid-19 Mrna vaccine vaccine vacine vaccine vacine vaccine vaccine vaccine vacine。但是,纳米孔测序数据分析的各种任务中计算方法的准确性远非令人满意。例如,纳米孔RNA测序的碱基调用精度约为90%,而目标的基础精度约为99.9%。这凸显了机器学习社区的迫切需要。一种阻止机器学习研究人员进入该领域的瓶颈缺乏大型集成基准数据集。为此,我们提出了纳米巴塞利布(Nanobaselib),这是一个综合的多任务台上数据集。它将16个公共数据集与纳米孔数据分析中的四个关键任务进行了超过3000万个读取。为了促进方法开发,我们已经使用统一的工作流进行了预处理所有原始数据,并以统一的格式存储了所有中级结果,分析了针对四个基准测试任务的各种基线方法分析的测试数据集,并开发了一个软件包来轻松访问这些结果。纳米巴斯利布可在https://nanobaselib.github.io上找到。
在不同数据集中训练的语言模型通过文本学习解锁概括。增强学习(RL)策略可以通过在序列模型的内存中获得元学习来实现相似的效果。但是,Meta-RL研究主要侧重于适应单个任务的微小变化。在不面对多任务优化挑战的情况下,很难扩展更一般的行为,而很少有解决方案与Meta-RL从大型未标记任务中学习的目标兼容。为了应对这一挑战,我们重新审视了一个想法,即多任务RL被跨不同任务的不平衡返回量表造成的不平衡训练损失所瓶颈。我们建立在基于变压器(内在)元RL的最新进步的基础上,并评估了一个简单但可扩展的解决方案,在该解决方案中,代理人的演员和评论家的目标都转换为分类术语,这些术语将从当前的回报量表中脱离优化。Meta-World ML45,多游戏Procgen,Multi-Task Popgym,Multi-Game Atari和Babyai中的大规模比较发现,这种设计在没有明确任务标签的情况下将在线多任务改编和记忆问题上取得了重大进展。