超分辨率医学图像可帮助医生提供更准确的诊断。在许多情况下,计算机断层扫描 (CT) 或磁共振成像 (MRI) 技术在一次检查期间会捕获多个扫描 (模式),这些扫描 (模式) 可以联合使用 (以多模态方式) 来进一步提高超分辨率结果的质量。为此,我们提出了一种新颖的多模态多头卷积注意模块来超分辨率 CT 和 MRI 扫描。我们的注意模块使用卷积运算对多个连接的输入张量执行联合空间通道注意,其中核 (感受野) 大小控制空间注意的减少率,卷积滤波器的数量控制通道注意的减少率。我们引入了多个注意头,每个头具有不同的感受野大小,对应于空间注意的特定减少率。我们将多模态多头卷积注意力 (MMHCA) 集成到两个深度神经架构中以实现超分辨率,并对三个数据集进行了实验。我们的实证结果表明,我们的注意力模块优于超分辨率中使用的最先进的注意力机制。此外,我们进行了一项消融研究,以评估注意力模块中涉及的组件的影响,例如输入的数量或头部的数量。我们的代码可在 https://github.com/lilygeorgescu/MHCA 免费获取。
a 瑞士苏黎世大学心理学系可塑性研究方法 b 瑞士苏黎世大学和苏黎世联邦理工学院苏黎世神经科学中心 (ZNZ) c 瑞士苏黎世大学大学研究优先计划“健康老龄化动力学” d 法国帕莱索巴黎萨克雷大学、Inria、CEA e 德国莱比锡马克斯普朗克人类认知和脑科学研究所神经病学系 f 加拿大魁北克省蒙特利尔蒙特利尔大学老年医学研究所功能神经影像科 g 美国德克萨斯州奥斯汀德克萨斯大学戴尔医学院计算神经影像实验室 h 美国密歇根州底特律韦恩州立大学老年学研究所和心理学系 i 加拿大蒙特利尔康考迪亚大学心理学系 j 大脑与运动研究所认知神经解剖学实验室épinière,法国巴黎 k 德克萨斯大学心理学系,美国德克萨斯州奥斯汀
缺失模态问题对于多模态模型来说至关重要,但并非易事。当前旨在处理多模态任务中缺失模态问题的方法要么仅在评估期间处理缺失模态,要么训练单独的模型来处理特定的缺失模态设置。此外,这些模型是为特定任务设计的,例如,分类模型不易适应分割任务,反之亦然。在本文中,我们提出了共享特定特征建模 (ShaSpec) 方法,该方法比解决上述问题的竞争方法简单得多,也更有效。ShaSpec 旨在通过学习共享和特定特征来更好地表示输入数据,从而在训练和评估期间利用所有可用的输入模态。这是通过一种依赖于基于分布对齐和域分类的辅助任务以及残差特征融合程序的策略实现的。此外,ShaSpec 的设计简单性使其易于适应多种任务,例如分类和分割。在医学图像分割和计算机视觉分类方面进行了实验,结果表明 ShaSpec 的表现远胜于竞争方法。例如,在 BraTS2018 上,ShaSpec 将增强肿瘤的 SOTA 提高了 3% 以上,将肿瘤核心的 SOTA 提高了 5%,将整个肿瘤的 SOTA 提高了 3%。1
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
对于医学图像分割,想象一下如果一个模型仅使用源域中的 MRI 图像进行训练,那么它在目标域中直接分割 CT 图像的性能如何?这种设置,即具有临床潜力的通用跨模态分割,比其他相关设置(例如域自适应)更具挑战性。为了实现这一目标,我们在本文中提出了一种新颖的双重规范化模型,该模型在通用分割过程中利用增强的源相似和源不相似图像。具体而言,给定一个源域,旨在模拟看不见的目标域中可能的外观变化,我们首先利用非线性变换来增强源相似和源不相似图像。然后,为了充分利用这两种类型的增强,我们提出的基于双重规范化的模型采用共享主干但独立的批量规范化层进行单独规范化。随后,我们提出了一种基于风格的选择方案,在测试阶段自动选择合适的路径。在三个公开数据集(即 BraTS、跨模态心脏和腹部多器官数据集)上进行的大量实验表明,我们的方法优于其他最先进的领域泛化方法。代码可在 https://github.com/zzzqzhou/Dual-Normalization 获得。
直到最近,研究人员主要对阅读中的人类行为数据感兴趣,以了解人类认知。然而,这些人类语言处理信号也可以用于基于机器学习的自然语言处理任务。目前,将脑电图大脑活动用于此目的的研究还很大程度上尚未得到探索。在本文中,我们首次进行了大规模研究,系统地分析了脑电图大脑活动数据在改进自然语言处理任务方面的潜力,特别关注了信号的哪些特征最有益。我们提出了一种多模态机器学习架构,它可以从文本输入和脑电图特征中联合学习。我们发现将脑电图信号过滤到频带中比使用宽带信号更有益。此外,对于一系列词嵌入类型,脑电图数据可以改进二元和三元情绪分类,并且优于多个基线。对于关系检测等更复杂的任务,在我们的实验中,只有情境化的 BERT 嵌入优于基线,这提出了进一步研究的需要。最后,当训练数据有限时,EEG 数据显示出特别有前景。
[1] Murray CJL, Aravkin AY, Zheng P, et al.Global burden of 87 risk factors in 204 countries and territories, 1990 – 2019: a systematic analysis for the Global Burden of Disease Study 2019[J].Lancet, 2020, 396 (10258): 1223-1249.[2] 王增武 , 马志毅 , 薛素芳 , 等 .基层冠心病与缺血性脑卒中共患管理 专家共识 2022[J].中国心血管病研究 , 2022, 20(9): 772-793.[3] 王拥军 , 李子孝 , 谷鸿秋 , 等 .中国卒中报告 2020 (中文版) (1)[J].中 国卒中杂志 , 2022, 17(5): 433-447.[4] Langhorne P, Bernhardt J, Kwakkel G. Stroke rehabilitation[J].Lancet, 2011, 377(9778): 1693-1702.[5] Xing Y, Bai Y.A Review of Exercise-Induced Neuroplasticity in Ischemic Stroke: Pathology and Mechanisms[J].Mol Neurobiol, 2020, 57 (10): 4218-4231.[6] Guggisberg AG, Koch PJ, Hummel FC, et al.Brain networks and their relevance for stroke rehabilitation[J].Clin Neurophysiol, 2019, 130(7): 1098-1124.[7] Lutsep HL, Albers GW, Decrespigny A, et al.Clinical utility of diffusion-weighted magnetic resonance imaging in the assessment of ischemic stroke[J].Ann Neurol, 1997, 41(5): 574-580.[8] 于帆 , Arman Sha, 张苗 , 等 .人工智能在急性缺血性脑卒中影像的研 究进展 [J].中华老年心脑血管病杂志 , 2023, 25(3): 334-336.[9] 李华 , 郭春锋 , 高连荣 .FLAIR 及 DWI 序列在诊断脑血管周围间隙 中的价值 [J].医学影像学杂志 , 2015, 25(8): 1341-1343.[10] Scheldeman L, Wouters A, Dupont P, et al.Stroke, 2022, 53(5): 1665-1673.[11] Thomalla G, Simonsen CZ, Boutitie F, et al.MRI-Guided Thrombolysis for Stroke with Unknown Time of Onset[J].[15] 蔡建新 , 彭如臣 .扩散加权成像和流体且反转的恢复定量定量,以预测不明发作的缺血性中风中的易流性恢复不匹配的恢复不匹配状态[J]。《新英格兰医学杂志》,2018,379(7):611-622。[12] Legrand L,Turc G,Edilali M等。根据Flair血管高压不匹配而受益于血栓切除术后血运重建[J]。Eur Radiol,2019,29(10):5567-5576。[13] Xie Y,Oppenheim C,Guillemin F等。预处理病变量会影响临床结果和血栓切除术的功效[J]。Ann Neurol,2018,83(1):178-185。 [14] Raoult H,Lassalle MV,Parat B等。 基于DWI的算法可预测急性中风血栓切除术治疗的患者的残疾[J]。 Am J Neuroradiol,2020,41(2):274-279。 弥散张量磁共振成像方法概述[J]。 医学影像学杂,2007,17(10):1119-1122。 [16] Qiu A,Mori S,Miller MI。 扩散张量成像,用于理解早期生命中大脑发育[J]。 Ann Rev Psychol,2015,66:853-876。 [17] Corroenne R,Arthuis C,Kasprian G等。 胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。 超声产科妇科,2022,60(4):470-476。 [18] Andica C,Kamagata K,Hatano T等。 源自扩散成像的退化性脑疾病的生物标志物[J]。 J Magn Reson Imaging,2020,52(6):1620-1636。 [19] Groisser BN,哥伦WA,Singhal AB等。 NeuroRehabil神经修复,2014,28(8):751-760。Ann Neurol,2018,83(1):178-185。[14] Raoult H,Lassalle MV,Parat B等。基于DWI的算法可预测急性中风血栓切除术治疗的患者的残疾[J]。Am J Neuroradiol,2020,41(2):274-279。弥散张量磁共振成像方法概述[J]。医学影像学杂,2007,17(10):1119-1122。[16] Qiu A,Mori S,Miller MI。扩散张量成像,用于理解早期生命中大脑发育[J]。Ann Rev Psychol,2015,66:853-876。 [17] Corroenne R,Arthuis C,Kasprian G等。 胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。 超声产科妇科,2022,60(4):470-476。 [18] Andica C,Kamagata K,Hatano T等。 源自扩散成像的退化性脑疾病的生物标志物[J]。 J Magn Reson Imaging,2020,52(6):1620-1636。 [19] Groisser BN,哥伦WA,Singhal AB等。 NeuroRehabil神经修复,2014,28(8):751-760。Ann Rev Psychol,2015,66:853-876。[17] Corroenne R,Arthuis C,Kasprian G等。胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。超声产科妇科,2022,60(4):470-476。[18] Andica C,Kamagata K,Hatano T等。源自扩散成像的退化性脑疾病的生物标志物[J]。J Magn Reson Imaging,2020,52(6):1620-1636。[19] Groisser BN,哥伦WA,Singhal AB等。NeuroRehabil神经修复,2014,28(8):751-760。皮质脊髓扩散异常[J]。[20] Kumar P,Kathuria P,Nair P等。使用扩散张量成像的亚急性缺血性卒中后上肢运动恢复的预测:系统评价和荟萃分析[J]。J Stroke,2016,18(1):50-59。[21] Soulard J,Huber C,Baillieul S等。运动道完整性预测步行恢复:亚急性中风中的扩散MRI研究[J]。神经病学,
决策算法在社会中的存在感如今正在迅速增加,同时人们也开始担心其透明度以及这些算法可能成为新的歧视来源。事实上,许多相关的自动化系统已被证明会根据敏感信息做出决策或歧视某些社会群体(例如,某些用于人员识别的生物特征识别系统)。为了研究当前基于异构信息源的多模态算法如何受到数据中的敏感元素和内部偏见的影响,我们提出了一个虚构的自动招聘测试平台:FairCVtest。我们使用一组有意识地以性别和种族偏见进行评分的多模态合成档案来训练自动招聘算法。FairCVtest 展示了此类招聘工具背后的人工智能(AI)从非结构化数据中提取敏感信息并以不良(不公平)的方式将其与数据偏见结合起来的能力。最后,我们列出了最近开发能够从深度学习架构的决策过程中删除敏感信息的技术的列表。我们使用其中一种算法(SensitiveNets)来实验歧视感知学习,以消除我们多模态 AI 框架中的敏感信息。我们的方法和结果展示了如何生成更公平的基于 AI 的工具,特别是更公平的自动招聘系统。
摘要 — 戏剧作品中的情感识别在基本的人机交互、情感计算和其他各种应用中起着关键作用。传统的单模态情感识别系统在捕捉人类情感的复杂性和细微差别方面往往面临挑战。为此,本研究调查了多种模态信息的整合,包括面部表情、语音和生理信号,以增强情感识别系统的稳健性和准确性。通过结合这些不同的信息来源,我们的目标是更全面地了解人类的情感,并提高情感识别模型的性能。该研究探索了各种方法,包括特征融合、注意力机制和跨模态迁移学习,以有效地结合和利用来自面部表情、语音和生理信号的信息。此外,我们解决了与领域适应和缺失数据处理相关的挑战,确保所提出的多模态方法在数据收集条件可能变化的现实场景中保持稳健。为了证实所提出方法的有效性,我们在为多模态情感识别精心制作的基准数据集上进行了实验。该数据集包括通过面部特征、录音和生理传感器捕捉到的各种情绪表达。评估指标经过精心选择,以评估模型在各种模式下捕捉人类情绪的复杂性和细化程度的能力。我们的研究通过深入了解面部表情、语音和生理信号之间的相互作用,加深了对多模态情绪识别的理解。所提出的框架不仅提高了情绪识别的准确性,而且还提供了对情绪状态的更全面理解,促进了人机交互和情感计算应用的进步。
摘要。多模式图像的使用通常可以改善分段。但是,由于临床限制,完整的多模式数据集通常不可用。为了解决这个问题,我们提出了一个新颖的mul-timodal分割框架,该框架可通过使用利益区域(ROI)细心的模态完成,可以使缺少模态固定。我们使用ROI专注的跳过连接专注于与分割相关的收件,以及结合肿瘤ROI的关注点和分割概率图的关节歧视者,以学习与分割与分割相关的共享潜在表示。我们的方法在脑部分割挑战数据集中得到了285例,该数据集的全部肿瘤,肿瘤核心和增强肿瘤的三个区域。它也是在缺血性卒中病变分割挑战数据集上的带有28例梗塞病变的阀门。我们的方法在强大的多模式分割中优于最先进的方法,分别为三种类型的脑肿瘤区域的平均骰子分别为84.15%,75.59%和54.90%,中风病变的平均骰子为48.29%。我们的方法可以改善需要多模式图像的临床工作流程。