科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE,这是一个科学的长上下文理解、推理和信息提取基准,用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务:材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM,这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力,但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说,所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。
摘要 — 本研究提出了一种新的公共空间模式 (CSP) 公式,该公式通常用作脑机接口 (BCI) 和其他神经学研究中的强大特征提取技术。在这种方法中,应用于多个受试者的数据并命名为超 CSP,CSP 公式利用了多个同时记录的受试者脑电图之间的个体协方差和互相关矩阵。该方法旨在有效地隔离多个头部之间的共同运动任务,并减轻受试者固有或故意执行的其他虚假或不受欢迎的任务的影响。该技术可以在使用小数据量和低计算复杂度的情况下提供令人满意的分类性能。通过使用提出的超 CSP 和支持向量机分类器,在存在强烈不良任务的情况下,我们在 8 次试验中获得了 81.82% 的分类准确率。我们希望这种方法可以减少多任务 BCI 场景中的训练误差。记录的有价值的与运动相关的超扫描数据集将提供给公众使用,以促进该领域的研究。
视觉丰富文档理解 (VRDU) 领域旨在解决多模态领域中大量已得到充分研究的 NLP 任务。目前已有多个数据集用于研究 VRDU 的特定任务,例如文档分类 (DC)、关键实体提取 (KEE)、实体链接、视觉问答 (VQA) 等。这些数据集涵盖带有稀疏注释的文档(如发票和收据),因此它们支持一到两个相关任务(例如实体提取和实体链接)。遗憾的是,只关注单一特定类型的文档或任务并不能代表文档在实际中通常需要如何处理 — — 在实际中,文档的风格和要求会多种多样。在本文中,我们介绍了 BuDDIE(用于信息提取的业务文档数据集),1 这是第一个包含 1,665 份真实业务文档的多任务数据集,其中包含丰富而密集的 DC、KEE 和 VQA 注释。我们的数据集由美国州政府网站上的公开业务实体文件组成。这些文件的结构化和样式和布局因州和类型(例如表格、证书、报告等)而异。我们为 BuDDIE 提供了数据多样性和质量指标,以及每个任务的一系列基线。我们的基线涵盖了 VRDU 的传统文本、多模态和大型语言模型方法。
我们研究了在任务之间共享表示形式的好处,以便在多任务增强学习中有效利用深层神经网络。我们利用这样的假设,即从不同的任务中学习,共享共同的属性,有助于概括它们的知识,从而导致更有效的功能与学习一项任务相比。直觉上,当通过增强学习算法使用时,由此产生的功能集提供了性能优势。我们通过提供理论保证来强调在任务之间共享表示形式的条件,从而将近似值近似值的近似时间限制扩展到多任务设置的条件,从而证明了这一点。此外,我们通过提出三种强化学习算法的多任务扩展来补充我们的分析,我们对广泛使用的强化学习基准进行了经验评估,该基准在样本效率和绩效方面显示了对单任务处理的显着改善。
摘要:机器人增强学习的最新成功涉及学习专业的单任务代理。但是,能够执行多个任务的机器人在现实世界应用程序中可能更有价值。多任务加强学习由于样本复杂性的提高和潜在矛盾的任务目标而可能非常具有挑战性。以前关于此主题的工作由无模型方法主导。即使学习专门的单任务代理,后者也可能是非常低效的样本效率。在这项工作中,我们专注于基于模型的多任务增强学习。我们提出了一种学习多任务视觉世界模型的方法,利用预训练的语言模型来提取语义上有意义的任务表示。世界模型和政策使用这些表示形式来推理动态和行为的任务相似性。我们的结果突出了对世界模型使用语言驱动的任务代表的好处,以及基于模型的多任务学习而不是更常见的无模型范式的明显优势。
摘要。在非结构化环境中执行语言条件的机器人操纵任务对于一般的智能机器人高度要求。常规的机器人操纵方法通常会学习对动作预测观察的单一表示,这忽略了人类目标组成的场景级时空动力学。在本文中,我们提出了一种动态的高斯分裂方法,名为Manigaussian多任务机器人操纵,该方法通过未来场景重建进行了场景动态。具体而言,我们首先要介绍动态的高斯脱落框架,该框架渗透了高斯嵌入空间中的半义传播,其中利用语义表示来预测最佳的机器人动作。然后,我们构建了一个高斯世界模型,以参数化我们动态的高斯脱落框架中的分布,该框架通过未来的场景重建在交互式环境中提供了信息性的范围。我们通过166个变体评估了10个RLBench任务的Manigussian,结果表明我们的框架可以比最先进的方法胜过13。平均成功率1%。
扩散模型的出现代表了生成建模,表现出非凡的能力,可以从文本输入中产生高保真图像。与此同时,图像恢复(IR),包括超分辨率,脱毛,去核,涂料和压缩,仍然是低级视力研究中的重要领域。最近,将扩散模型集成到IR任务中的趋势越来越大,产生的结果超过了以前的方法。尽管如此,扩散模型在IR中的应用提出了自己的一系列挑战,包括模型设计中的复杂性以及有关操作效率的关注点。该项目从Wang等人的“实用扩散的先验扩散”(StablesR)中汲取了灵感。[2023],它巧妙地采用了预训练的文本对图像扩散模型的生成能力来增强盲目的超级分辨率(SR)任务。Stables的框架如图1所示。这项研究展示了与未修饰的稳定扩散Rombach等人进行微调的时间感知编码器。[2022]模型,可导致重大的恢复改进,同时保持原始的生成框架并减少培训费用。在这个项目中,我们旨在扩大跨各种IR任务中Stables的应用,并调查更轻巧的解决方案的潜力。
。CC-BY-NC-ND 4.0 国际许可证永久有效。它以预印本形式提供(未经同行评审认证),作者/资助者已授予 bioRxiv 许可,可以在该版本中显示预印本。版权所有者于 2024 年 2 月 21 日发布了此版本。;https://doi.org/10.1101/2024.02.16.580578 doi:bioRxiv 预印本
摘要 多任务处理的情况(例如开车时使用手机)在日常生活中越来越常见。实验心理学早已记录了多任务处理对任务表现的影响;然而,人们对其对监控此类表现的元认知过程的影响知之甚少。本研究通过将心理物理程序与复杂的多任务处理相结合,朝着填补这一空白迈出了一步。我们设计了一个多模态范式,参与者分别或同时执行感觉运动跟踪任务、视觉辨别任务和听觉 2-back 工作记忆任务,同时每隔约 15 秒评估一次他们的任务表现。我们的主要发现是,多任务处理降低了参与者对自己在这三个任务中的表现(元认知敏感性)的意识。重要的是,这个结果与多任务处理对任务表现的影响无关,不能归因于信心泄露、心理不应期或自我评价的近期效应。我们讨论了这一发现对元认知和多任务研究的意义。