[1] Murray CJL, Aravkin AY, Zheng P, et al.Global burden of 87 risk factors in 204 countries and territories, 1990 – 2019: a systematic analysis for the Global Burden of Disease Study 2019[J].Lancet, 2020, 396 (10258): 1223-1249.[2] 王增武 , 马志毅 , 薛素芳 , 等 .基层冠心病与缺血性脑卒中共患管理 专家共识 2022[J].中国心血管病研究 , 2022, 20(9): 772-793.[3] 王拥军 , 李子孝 , 谷鸿秋 , 等 .中国卒中报告 2020 (中文版) (1)[J].中 国卒中杂志 , 2022, 17(5): 433-447.[4] Langhorne P, Bernhardt J, Kwakkel G. Stroke rehabilitation[J].Lancet, 2011, 377(9778): 1693-1702.[5] Xing Y, Bai Y.A Review of Exercise-Induced Neuroplasticity in Ischemic Stroke: Pathology and Mechanisms[J].Mol Neurobiol, 2020, 57 (10): 4218-4231.[6] Guggisberg AG, Koch PJ, Hummel FC, et al.Brain networks and their relevance for stroke rehabilitation[J].Clin Neurophysiol, 2019, 130(7): 1098-1124.[7] Lutsep HL, Albers GW, Decrespigny A, et al.Clinical utility of diffusion-weighted magnetic resonance imaging in the assessment of ischemic stroke[J].Ann Neurol, 1997, 41(5): 574-580.[8] 于帆 , Arman Sha, 张苗 , 等 .人工智能在急性缺血性脑卒中影像的研 究进展 [J].中华老年心脑血管病杂志 , 2023, 25(3): 334-336.[9] 李华 , 郭春锋 , 高连荣 .FLAIR 及 DWI 序列在诊断脑血管周围间隙 中的价值 [J].医学影像学杂志 , 2015, 25(8): 1341-1343.[10] Scheldeman L, Wouters A, Dupont P, et al.Stroke, 2022, 53(5): 1665-1673.[11] Thomalla G, Simonsen CZ, Boutitie F, et al.MRI-Guided Thrombolysis for Stroke with Unknown Time of Onset[J].[15] 蔡建新 , 彭如臣 .扩散加权成像和流体且反转的恢复定量定量,以预测不明发作的缺血性中风中的易流性恢复不匹配的恢复不匹配状态[J]。《新英格兰医学杂志》,2018,379(7):611-622。[12] Legrand L,Turc G,Edilali M等。根据Flair血管高压不匹配而受益于血栓切除术后血运重建[J]。Eur Radiol,2019,29(10):5567-5576。[13] Xie Y,Oppenheim C,Guillemin F等。预处理病变量会影响临床结果和血栓切除术的功效[J]。Ann Neurol,2018,83(1):178-185。 [14] Raoult H,Lassalle MV,Parat B等。 基于DWI的算法可预测急性中风血栓切除术治疗的患者的残疾[J]。 Am J Neuroradiol,2020,41(2):274-279。 弥散张量磁共振成像方法概述[J]。 医学影像学杂,2007,17(10):1119-1122。 [16] Qiu A,Mori S,Miller MI。 扩散张量成像,用于理解早期生命中大脑发育[J]。 Ann Rev Psychol,2015,66:853-876。 [17] Corroenne R,Arthuis C,Kasprian G等。 胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。 超声产科妇科,2022,60(4):470-476。 [18] Andica C,Kamagata K,Hatano T等。 源自扩散成像的退化性脑疾病的生物标志物[J]。 J Magn Reson Imaging,2020,52(6):1620-1636。 [19] Groisser BN,哥伦WA,Singhal AB等。 NeuroRehabil神经修复,2014,28(8):751-760。Ann Neurol,2018,83(1):178-185。[14] Raoult H,Lassalle MV,Parat B等。基于DWI的算法可预测急性中风血栓切除术治疗的患者的残疾[J]。Am J Neuroradiol,2020,41(2):274-279。弥散张量磁共振成像方法概述[J]。医学影像学杂,2007,17(10):1119-1122。[16] Qiu A,Mori S,Miller MI。扩散张量成像,用于理解早期生命中大脑发育[J]。Ann Rev Psychol,2015,66:853-876。 [17] Corroenne R,Arthuis C,Kasprian G等。 胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。 超声产科妇科,2022,60(4):470-476。 [18] Andica C,Kamagata K,Hatano T等。 源自扩散成像的退化性脑疾病的生物标志物[J]。 J Magn Reson Imaging,2020,52(6):1620-1636。 [19] Groisser BN,哥伦WA,Singhal AB等。 NeuroRehabil神经修复,2014,28(8):751-760。Ann Rev Psychol,2015,66:853-876。[17] Corroenne R,Arthuis C,Kasprian G等。胎儿大脑的扩散张量成像:有前途技术的原理,潜力和局限性[J]。超声产科妇科,2022,60(4):470-476。[18] Andica C,Kamagata K,Hatano T等。源自扩散成像的退化性脑疾病的生物标志物[J]。J Magn Reson Imaging,2020,52(6):1620-1636。[19] Groisser BN,哥伦WA,Singhal AB等。NeuroRehabil神经修复,2014,28(8):751-760。皮质脊髓扩散异常[J]。[20] Kumar P,Kathuria P,Nair P等。使用扩散张量成像的亚急性缺血性卒中后上肢运动恢复的预测:系统评价和荟萃分析[J]。J Stroke,2016,18(1):50-59。[21] Soulard J,Huber C,Baillieul S等。运动道完整性预测步行恢复:亚急性中风中的扩散MRI研究[J]。神经病学,
正电子发射断层扫描(PET)和计算的刻录术(CT)通常共同用于检测肿瘤。PET/CT分割模型可以自动化肿瘤的描述,但是,当前的多模式模型不能完全阐明每种模式中的互补信息,因为它们要么串联PET和CT数据,要么在决策水平上融合它们。为了对抗这一点,我们提出了镜像u-net,它通过将多模式表示形式分配到模态特异性的解码器分支和辅助多模态解码器中,以多模态化的方式代替了传统的融合方法。在这些分支上,镜像u-net标志着一个针对每种模式量身定制的任务,以增强单峰特征,同时保留共享表示中的多模式特征。与以前的方法相比使用了其他方法或多任务学习,Mirror U-net将两个范式结合在一个统一的框架中。我们探索各种任务组合,并检查在模型中共享的哪些参数。我们在Autopet PET/CT和多模式MSD Braintumor数据集上评估了Mirror U-NET,证明了其在多模式分段中的有效性并在两个数据集中实现了先进的性能。代码:https://github.com/zrrrrr1997/ autopet_challenge_mirrorunet
摘要 — 戏剧作品中的情感识别在基本的人机交互、情感计算和其他各种应用中起着关键作用。传统的单模态情感识别系统在捕捉人类情感的复杂性和细微差别方面往往面临挑战。为此,本研究调查了多种模态信息的整合,包括面部表情、语音和生理信号,以增强情感识别系统的稳健性和准确性。通过结合这些不同的信息来源,我们的目标是更全面地了解人类的情感,并提高情感识别模型的性能。该研究探索了各种方法,包括特征融合、注意力机制和跨模态迁移学习,以有效地结合和利用来自面部表情、语音和生理信号的信息。此外,我们解决了与领域适应和缺失数据处理相关的挑战,确保所提出的多模态方法在数据收集条件可能变化的现实场景中保持稳健。为了证实所提出方法的有效性,我们在为多模态情感识别精心制作的基准数据集上进行了实验。该数据集包括通过面部特征、录音和生理传感器捕捉到的各种情绪表达。评估指标经过精心选择,以评估模型在各种模式下捕捉人类情绪的复杂性和细化程度的能力。我们的研究通过深入了解面部表情、语音和生理信号之间的相互作用,加深了对多模态情绪识别的理解。所提出的框架不仅提高了情绪识别的准确性,而且还提供了对情绪状态的更全面理解,促进了人机交互和情感计算应用的进步。
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。
直到最近,研究人员主要对阅读中的人类行为数据感兴趣,以了解人类认知。然而,这些人类语言处理信号也可以用于基于机器学习的自然语言处理任务。目前,将脑电图大脑活动用于此目的的研究还很大程度上尚未得到探索。在本文中,我们首次进行了大规模研究,系统地分析了脑电图大脑活动数据在改进自然语言处理任务方面的潜力,特别关注了信号的哪些特征最有益。我们提出了一种多模态机器学习架构,它可以从文本输入和脑电图特征中联合学习。我们发现将脑电图信号过滤到频带中比使用宽带信号更有益。此外,对于一系列词嵌入类型,脑电图数据可以改进二元和三元情绪分类,并且优于多个基线。对于关系检测等更复杂的任务,在我们的实验中,只有情境化的 BERT 嵌入优于基线,这提出了进一步研究的需要。最后,当训练数据有限时,EEG 数据显示出特别有前景。
随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。
精确的地理空间植被预测具有各个部门的潜力,包括农业,林业,植物援助和碳会计。为了利用卫星图像的广泛可用性来完成此任务,各种作品应用了深层神经网络,以预测具有逼真质量的多光谱图像。但是,尚未彻底探索植被动力学的重要领域。我们的研究介绍了Greenearthnet,这是第一个专门为高分辨率植被预测设计的数据集,以及ContextFormer,这是一种新颖的深度学习方法,可预测Sentinel 2卫星2卫星图像,并在整个Eu-Rope之间进行精细分辨率。我们的多模式变压器模型上下文形式通过视觉主链利用空间上下文,并以参数有效的方式预测局部上下文贴片上包含气象时间序列的时间动态。Greenearthnet数据集具有学习的云蒙版和适当的植被建模评估方案。它还与现有的卫星图像预测数据集SEARNET2021保持兼容性,从而实现了跨数据库模型比较。我们广泛的定性和定量分析表明,我们的方法的表现优于广泛的基线技术。这包括超越了SEARNET2021上的先前最先进的模型,以及时间序列预测和视频预测的改编模型。我们提供开源代码和预训练的权重,以根据https:// gith ub.com/vitusbenson/greenearthnet [10]重新产生我们的实验结果。据我们所知,这项工作为大陆规模植被建模的第一个模拟介绍了良好的分辨,能够在季节性周期以外捕获异常,从而为对气候变化和极端的响应铺平了预测植被健康和行为的道路。