摘要 — 糖尿病视网膜病变 (DR) 是一种复杂的疾病,结合来自患者病史、实验室结果或基因数据等多种来源的信息可以增进理解。眼科医生或自动化系统可以通过人工检查识别 DR。由于其成本效益和时间效率,糖尿病视网膜病变的自动检测已成为患者和医疗保健提供者的首选。这项研究的新颖之处在于开发了一种使用多模态数据融合预测糖尿病视网膜病变的模型,通过在长短期记忆 (LSTM) 网络中实现的早期融合技术,结合眼底视网膜图像、光学相干断层扫描 (OCT) 和电子健康记录 (EHR)。我们的模型利用多模态数据与局部二值模式 (LBP) 的早期融合,已展示出最佳性能,实现 AUC 值 0.99。这种高精度表明,整合来自各种数据源的信息可以显著提高模型检测糖尿病视网膜病变阳性和阴性病例的能力,从而增强我们对研究结果的可靠性的信心。
摘要 — 人机交互已经存在了几十年,每天都有新的应用出现。尚待实现的主要目标之一是设计一种类似于人与人之间交互的交互。因此,需要开发能够复制更真实、更轻松的人机交互的交互系统。另一方面,开发人员和研究人员需要了解用于实现这一目标的尖端技术。这些系统可以与人工智能相结合,以做出准确的行动或决策。运动跟踪器、虚拟现实耳机等系统都利用人工智能来减少误差幅度,并从设备中获得最佳输出。拥有一个不仅能够接受用户输入而且能够理解这些数据的系统将人机交互提升到一个新的水平。我们提出这项调查是为了向研究人员提供使用多种输入实现的最先进的数据融合技术,以完成工业 4.0 应用中使用的机器人应用领域的任务。此外,输入数据模式大致分为单模态和多模态系统,它们应用于包括医疗保健行业在内的众多行业,有助于医疗行业的未来发展。它将帮助专业人员使用不同的模式检查患者。多模态系统通过所使用的输入组合来区分
学习科学正在拥抱技术在更好地检测、诊断和推动自我调节学习 (SRL) 方面所能发挥的重要作用。SRL 领域面临着测量 SRL 过程的挑战,以促进我们对多模态数据如何能够不引人注目地捕捉学习者在时间、任务、领域和环境中的认知、元认知、情感和动机状态的理解。本文介绍了一个自我调节学习过程、多模态数据和分析 (SMA) 网格,并将作者 (63 篇论文) 在过去五年中的联合和个人研究映射到网格上。这显示了如何使用多模态数据流来研究 SRL 过程。SMA 网格上的二维空间有助于可视化数据流之间的关系和可能的组合以及 SRL 过程的测量方式。本概述是对当前特刊“利用人工智能 (AI) 推进 SRL 研究”的分析介绍,我们鼓励定位新的研究和未探索的前沿。我们强调需要进行密切和战略性的合作,以加速进展,使用新的跨学科方法来开发教育技术中 SRL 的准确测量。
多模态异构数据,如结构磁共振成像 (MRI)、正电子发射断层扫描 (PET) 和脑脊液 (CSF),可通过提供有关退化脑部疾病(如阿尔茨海默病前驱期,即轻度认知障碍)的互补信息,有效提高痴呆症自动诊断的性能。有效地整合多模态数据仍然是一个具有挑战性的问题,尤其是当这些异构数据由于数据质量差和患者退出而不完整时。此外,多模态数据通常包含由不同扫描仪或成像协议引起的噪声信息。现有方法通常无法很好地处理这些异构且嘈杂的多模态数据以进行脑痴呆症自动诊断。为此,我们提出了一种高阶拉普拉斯正则化低秩表示方法,使用逐块缺失的多模态数据进行痴呆症诊断。对来自真实阿尔茨海默病神经影像学计划 (ADNI) 队列的 805 名受试者(具有不完整的 MRI、PET 和 CSF 数据)对所提出的方法进行了评估。实验结果表明,与最先进的方法相比,我们的方法在脑疾病分类的三个任务中是有效的。
除了所需的知识之外,还有许多因素影响学习者在某项活动上的表现。学习者在任务上的努力被认为与他们的教育成果密切相关,反映了他们参与该活动的积极性。然而,努力不是直接可观察到的。多模态数据可以提供对学习过程的额外见解,并可能允许努力估计。本文提出了一种在自适应评估环境中对努力进行分类的方法。具体来说,在自适应自我评估活动期间,使用日志和生理数据(即眼动追踪、脑电图、腕带和面部表情)捕捉了 32 名学生的行为。我们对多模态数据应用 k 均值来聚类学生的行为模式。接下来,我们根据发现的行为模式,使用隐马尔可夫模型 (HMM) 和维特比算法的组合,预测学生完成即将到来的任务的努力。我们还将结果与其他最先进的分类算法(SVM、随机森林)进行了比较。我们的研究结果表明,HMM 可以比其他方法更有效地编码努力与行为之间的关系(由多模态数据捕获)。最重要的是,该方法的实际意义在于,通过建立行为之间的关系,派生出的 HMM 还可以精确定位向学习者实时提供预防/规范反馈的时刻
在复杂而多维的医学领域,多模态数据普遍存在,对于做出明智的临床决策至关重要。多模态数据涵盖广泛的数据类型,包括医学图像(例如 MRI 和 CT 扫描)、时间序列数据(例如可穿戴设备和电子健康记录的传感器数据)、音频记录(例如心音和呼吸音以及患者访谈)、文本(例如临床笔记和研究文章)、视频(例如外科手术)和组学数据(例如基因组学和蛋白质组学)。虽然大型语言模型 (LLM) 的进步为医学领域的知识检索和处理提供了新的应用,但大多数 LLM 仍然仅限于处理单模态数据(通常是基于文本的内容),并且经常忽视整合临床实践中遇到的各种数据模态的重要性。本文旨在从详细、实用和面向解决方案的角度介绍多模态 LLM (M-LLM) 在医学领域的应用。我们的调查涵盖了 M-LLM 的基本原理、当前和潜在的应用、技术和道德挑战以及未来的研究方向。通过连接这些元素,我们旨在提供一个综合框架,将 M-LLM 的各个方面联系起来,为它们在医疗保健领域的未来提供统一的愿景。这种方法旨在指导 M-LLM 在医疗保健领域的未来研究和实际实施,将其定位为向综合、多模式数据驱动的医疗实践转变的范式转变。我们预计这项工作将引发进一步的讨论,并激发下一代医学 M-LLM 系统中创新方法的发展。
摘要 — 目标:对同一现象进行多模态测量可提供互补信息并突出不同的观点,尽管每种方法都有各自的局限性。只关注单一模态可能会导致错误的推论,当研究的现象是疾病时,这一点尤其重要。在本文中,我们介绍了一种利用多模态数据来解决精神分裂症 (SZ) 中的断线和功能障碍假设的方法。方法:我们首先使用高斯图模型 (GGM) 估计和可视化提取的多模态数据特征内和之间的链接。然后,我们提出了一种基于模块化的方法,该方法可应用于 GGM 以识别与多模态数据集中的精神疾病相关的链接。通过模拟和真实数据,我们展示了我们的方法揭示了与疾病相关的网络中断的重要信息,而这些信息在关注单一模态时会被忽略。我们使用功能性磁共振成像 (fMRI)、扩散磁共振成像 (dMRI) 和结构磁共振成像 (sMRI) 来计算低频波动的分数振幅 (fALFF)、分数各向异性 (FA) 和灰质 (GM) 浓度图。使用我们的模块化方法分析这三种模态。结果:我们的结果显示缺失的链接仅由跨模态信息捕获,这可能在组件之间的断开连接中发挥重要作用。结论:我们在 SZ 患者的默认模式网络区域中发现了多模态 (fALFF、FA 和 GM) 断开连接,这在单一模态中是无法检测到的。意义:所提出的方法为捕获分布在多种成像模态之间的信息提供了一种重要的新工具。
图 1:人形机器人 ARMAR-III [ 2 ] 感知来自不同传感器的多模态数据,如触觉、视觉和听觉信息。这些数据必须在适当的记忆系统中存储和处理。为了最佳地支持各种认知过程和动作,记忆系统必须满足几个特征,如主动设计、多模态、固有情景结构、联想性和自省性。
教师参与在线学习是提高在线教师培训效果的关键因素。本文介绍了一种多模态学习分析方法,利用脑电波、眼动和面部表情数据预测在职教师在线同步培训中的参与度和学习成果。本研究分析了从在职教师(n = 53)获得的单模态和多模态数据在多大程度上预测他们的学习成果和参与度。结果表明,使用面部表情和眼动数据的模型对学习成果的预测效果最好。在教师参与度方面的表现各不相同:多模态模型(整合眼动、面部表情和脑电波数据)最擅长预测认知参与和情感参与,而模型(整合眼动和面部表情数据)最擅长预测行为参与。最后,我们将模型应用于在线同步培训的四个阶段,并讨论了教师参与度水平的变化。这项工作有助于理解多模态数据对于预测教师在线学习过程和促进在线教师专业发展的价值。