几何模型拟合是一个具有挑战性但又十分基础的计算机视觉问题。最近,量子优化已被证明可以增强单模型情况的稳健拟合,同时多模型拟合的问题仍未得到解决。为了应对这一挑战,本文表明后一种情况可以从量子硬件中显著受益,并提出了第一种多模型拟合 (MMF) 的量子方法。我们将 MMF 表述为一个问题,现代绝热量子计算机可以对其进行有效采样,而无需放宽目标函数。我们还提出了一种迭代和分解版本的方法,该方法支持真实世界大小的问题。实验评估在各种数据集上都显示出有希望的结果。源代码可在以下位置获得:https://github.com/FarinaMatteo/qmmf 。
1 “Enrico Piaggio”研究中心和 Dipartimento di Ingegneria dell'Informazione,比萨拉戈大学 Lucio Lazzarino 1, 56122 比萨,意大利; 2 用于人类合作与康复的软机器人,Fondazione Istituto Italiano di Tecnologia,Via Morego 30, 16163 Genova,意大利; 3 RSI - 慕尼黑工业大学 (TUM) 慕尼黑机器人与机器智能学院机器人与系统智能主席,Heßstr。 134, 80797 慕尼黑, 德国; 4 MoMiLab 研究中心,IMT 卢卡高级研究学院,Piazza S. Francesco 19, 55100 Lucca, Italy; 5 苏黎世大学神经病学系血管神经病学和神经康复科,Frauenklinikstrasse 26, 8006 苏黎世,瑞士;6 汉诺威医学院矫形外科系生物力学和生物材料实验室 (LBB),L384, 30625 汉诺威,德国;7 苏黎世健康科学与技术系机器人与智能系统研究所康复工程实验室,CLA H 1.1 Tannenstrasse 3, 8092 苏黎世,瑞士
摘要:本研究提出了一种新的梦境记录方法,该方法结合了非侵入式脑机接口 (BMI)、思维输入软件和生成式 AI 辅助多模态软件。该方法旨在将 REM 睡眠期间的意识过程升华到半意识状态,并产生用于思维输入的信号。我们概述了一个两阶段的过程:首先,使用生成式 AI 开发多模态软件来补充文本流并生成多媒体内容;其次,采用基于摩尔斯电码的打字方式来简化信号要求并提高打字速度。我们通过建议一种涉及植入 BMI 的用户的控制系统来优化非侵入式信号,从而应对非侵入式 EEG 的挑战。文献综述重点介绍了 BMI 打字、意识过程升华以及生成式 AI 在基于文本提示的思维输入方面的潜力方面的最新进展。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。
许多现有的运动预测方法都依赖于符号感知输出来生成代理轨迹,例如边界框,路图信息和traf-fight。这种符号表示是现实世界的高级表现,它可能会使运动预测模型容易受到感知错误的影响(例如,在检测开放式录音障碍时失败),而缺少场景中的显着信息(例如,糟糕的道路条件)。另一种范式是从原始传感器中端到端学习。但是,这种方法缺乏解释性,需要大量的培训资源。在这项工作中,我们提出将视觉世界的标记化为一组紧凑的场景元素,然后利用预先训练的图像基础模型和LiDAR神经网络以开放式播音方式进行编码所有场景元素。图像基础模型使我们的场景令牌可以编码开放世界的一般知识,而LiDAR神经网络编码几何信息。我们提出的表示形式可以有效地用几百个令牌编码多帧多模式观察,并且与大多数基于变压器的体系结构兼容。为了评估我们的方法,我们使用了带有凸轮嵌入的Waymo开放运动数据集。通过Waymo开放运动数据集进行的实验表明,我们的方法会导致对最先进的表现的显着改善。
a 瑞士苏黎世大学心理学系可塑性研究方法 b 瑞士苏黎世大学和苏黎世联邦理工学院苏黎世神经科学中心 (ZNZ) c 瑞士苏黎世大学大学研究优先计划“健康老龄化动力学” d 法国帕莱索巴黎萨克雷大学、Inria、CEA e 德国莱比锡马克斯普朗克人类认知和脑科学研究所神经病学系 f 加拿大魁北克省蒙特利尔蒙特利尔大学老年医学研究所功能神经影像科 g 美国德克萨斯州奥斯汀德克萨斯大学戴尔医学院计算神经影像实验室 h 美国密歇根州底特律韦恩州立大学老年学研究所和心理学系 i 加拿大蒙特利尔康考迪亚大学心理学系 j 大脑与运动研究所认知神经解剖学实验室épinière,法国巴黎 k 德克萨斯大学心理学系,美国德克萨斯州奥斯汀
直到最近,研究人员主要对阅读中的人类行为数据感兴趣,以了解人类认知。然而,这些人类语言处理信号也可以用于基于机器学习的自然语言处理任务。目前,将脑电图大脑活动用于此目的的研究还很大程度上尚未得到探索。在本文中,我们首次进行了大规模研究,系统地分析了脑电图大脑活动数据在改进自然语言处理任务方面的潜力,特别关注了信号的哪些特征最有益。我们提出了一种多模态机器学习架构,它可以从文本输入和脑电图特征中联合学习。我们发现将脑电图信号过滤到频带中比使用宽带信号更有益。此外,对于一系列词嵌入类型,脑电图数据可以改进二元和三元情绪分类,并且优于多个基线。对于关系检测等更复杂的任务,在我们的实验中,只有情境化的 BERT 嵌入优于基线,这提出了进一步研究的需要。最后,当训练数据有限时,EEG 数据显示出特别有前景。
近年来见证了一代和重建范式深入融合的趋势。在本文中,我们扩展了可控制的生成模块的能力,以实现更全面的手网恢复任务:在单个框架中,手工网格的生成,内部网状,重建,重建和拟合,我们将其命名为H olistic H和MESH R Ecovery(HHMR)。我们的主要观察结果是,具有强大多模式可偿还性的单个生成模型可以实现不同类型的手网恢复任务,并且在这样的框架中,实现不同的任务只需要给出不同的信号作为条件。为了实现这一目标,我们提出了基于图形卷积和整体手工网状恢复的注意力卷积和注意力机制的多合一扩散框架。为了实现强大的控制能力,同时确保多模式控制信号的解耦,我们将不同的模态映射到共享特征空间并应用跨尺度随机
视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。