生理自适应虚拟现实可以驱动交互并调整虚拟内容以更好地满足用户的需求并支持特定目标。然而,心理生理推理的复杂性阻碍了有效的适应,因为认知和生理特征之间的关系很少表现出一一对应的关系。因此,有必要采用多模态方法来评估适应的效果。在这项工作中,我们分析了在与 VR 自适应系统交互过程中获得的多模态数据集(EEG、ECG 和 EDA),该系统使用 EDA 作为输入来适应次要任务难度。我们评估了动态调整对不同生理特征及其相关性的影响。我们的结果表明,当自适应系统增加次要任务难度时,theta、Beta 和相位 EDA 特征会增加。此外,我们发现在难度调整过程中 theta、alpha 和 beta 振荡之间存在高度相关性。我们的结果展示了如何使用特定的 EEG 和 EDA 特征来评估 VR 自适应系统。
摘要。多模式图像的使用通常可以改善分段。但是,由于临床限制,完整的多模式数据集通常不可用。为了解决这个问题,我们提出了一个新颖的mul-timodal分割框架,该框架可通过使用利益区域(ROI)细心的模态完成,可以使缺少模态固定。我们使用ROI专注的跳过连接专注于与分割相关的收件,以及结合肿瘤ROI的关注点和分割概率图的关节歧视者,以学习与分割与分割相关的共享潜在表示。我们的方法在脑部分割挑战数据集中得到了285例,该数据集的全部肿瘤,肿瘤核心和增强肿瘤的三个区域。它也是在缺血性卒中病变分割挑战数据集上的带有28例梗塞病变的阀门。我们的方法在强大的多模式分割中优于最先进的方法,分别为三种类型的脑肿瘤区域的平均骰子分别为84.15%,75.59%和54.90%,中风病变的平均骰子为48.29%。我们的方法可以改善需要多模式图像的临床工作流程。
本文介绍了 SceMQA,这是大学入学阶段科学多模态问答的新基准。它解决了现有基准中经常被忽视的一个关键教育阶段,涵盖高中到大学预科阶段。SceMQA 专注于数学、物理、化学和生物等核心科学学科。它融合了多项选择题和自由回答格式,确保对 AI 模型的能力进行全面评估。此外,我们的基准为每个问题提供了特定的知识点,并为每个答案提供了详细的解释。SceMQA 还以独特的方式呈现了具有相同背景但不同问题的问题,以便更彻底、更准确地评估推理能力。在实验中,我们在各种实验环境中评估了开源和闭源的最先进的多模态大型语言模型 (MLLM)。结果表明,需要进一步研究和开发以开发更强大的 MLLM,最强大的模型仅能实现 50% 到 60% 的准确率。我们的基准和分析将在 https://scemqa.github.io/ 上提供。
摘要。快速发展的自动驾驶汽车 (AV) 技术有可能为一些老龄化人口挑战提供解决方案,例如由于无法独立移动而导致的社会孤立。然而,要使 AV 取得成功,用户的接受度至关重要。15 名参与者(男性,70 岁)参加了一项自动驾驶模拟器试验,该试验在决策场景中使用基于语音的 CAV 状态反馈——是否在途中接朋友。受试者内条件/旅程为:音频反馈(音频)/接人;音频/无接人;无音频/接人。此外,还考虑了不同外部旅程条件下反馈的影响,从而产生了两种受试者间条件——白天和夜间旅行。参与者的生理、认知和情感测量表明,在无音频/接人条件下,情境意识和工作量评级更高,试验后信任评级增加,总体积极情感更高。这些结果表明,无声音条件下需要的注意力最集中,这表明声音/多模态反馈提高了操作的简易性和旅途体验。关键词:联网自动驾驶汽车·人机交互·反馈方式·老年参与者·听力率·信任·任务负荷
除了所需的知识之外,还有许多因素影响学习者在某项活动上的表现。学习者在任务上的努力被认为与他们的教育成果密切相关,反映了他们参与该活动的积极性。然而,努力不是直接可观察到的。多模态数据可以提供对学习过程的额外见解,并可能允许努力估计。本文提出了一种在自适应评估环境中对努力进行分类的方法。具体来说,在自适应自我评估活动期间,使用日志和生理数据(即眼动追踪、脑电图、腕带和面部表情)捕捉了 32 名学生的行为。我们对多模态数据应用 k 均值来聚类学生的行为模式。接下来,我们根据发现的行为模式,使用隐马尔可夫模型 (HMM) 和维特比算法的组合,预测学生完成即将到来的任务的努力。我们还将结果与其他最先进的分类算法(SVM、随机森林)进行了比较。我们的研究结果表明,HMM 可以比其他方法更有效地编码努力与行为之间的关系(由多模态数据捕获)。最重要的是,该方法的实际意义在于,通过建立行为之间的关系,派生出的 HMM 还可以精确定位向学习者实时提供预防/规范反馈的时刻
多模态学习研究的核心在于有效利用多模态之间的融合表示。然而,现有的双向跨模态单向注意力只能利用从一个源到一个目标模态的模态间相互作用。在模态数量有限且交互方向固定的情况下,这确实无法释放多模态融合的全部表达能力。在本文中,提出了多路多模态变换器(MMT),通过单个块而不是多个堆叠的跨模态块同时探索每个模态的多路多模态互相关。MMT 的核心思想是多路多模态注意力,其中利用多种模态来计算多路注意张量。这自然有利于我们开发全面的多对多多模态交互路径。具体而言,多路张量由多个相互连接的模态感知核心张量组成,这些核心张量由模态内交互组成。此外,张量收缩操作用于研究不同核心张量之间的模态间依赖关系。本质上,我们基于张量的多路结构允许将 MMT 轻松扩展到与任意数量的模态相关的情况。以 MMT 为基础,进一步建立分层网络,以递归方式将低级多路多模态交互传输到高级交互。实验表明,MMT 可以实现最先进或相当的性能。
多模态情感分析是一个具有挑战性的研究领域,它致力于多种异构模态的融合。主要的挑战是在多模态融合过程中会出现一些模态缺失的情况。然而,现有的技术需要所有模态作为输入,因此对预测时间上的缺失模态很敏感。在本文中,耦合翻译融合网络(CTFN)首次被提出通过耦合学习来建模双向相互作用,确保了对缺失模态的鲁棒性。具体来说,我们提出了循环一致性约束来提高翻译性能,允许我们直接丢弃解码器而只包含 Transformer 的编码器。这可以帮助建立一个更轻量的模型。由于耦合学习,CTFN 能够并行进行双向跨模态互相关。基于 CTFN,进一步建立了分层架构以利用多个双向翻译,与传统翻译方法相比,可实现双多模态融合嵌入。此外,卷积块用于进一步突出这些翻译之间的显式交互。为了进行评估,我们在两个多模态基准上对 CTFN 进行了验证,并进行了广泛的消融研究。实验表明,所提出的框架实现了最先进的或通常具有竞争力的性能。此外,在考虑缺失模态时,CTFN 仍然保持稳健性。
定位病变是结肠镜检查的主要目标。3D感知技术可以通过恢复结肠的3D空间信息来提高病变局部局部的准确性。但是,现有方法集中于单个帧的局部深度估计,并忽略了结肠镜的精确全局定位,因此未能提供病变的准确3D位置。此短缺的根本原因是双重的:首先,现有方法将结肠深度和结肠镜构成估计为独立任务,或将其设计为并行子任务分支。其次,结肠环境中的光源与结肠镜一起移动,从而导致连续框架图像之间的亮度波动。为了解决这两个问题,我们提出了一个新型的基于深度学习的视觉探针框架Colvo,它可以使用两个关键组成部分不断地估算结肠深度和结肠镜姿势:深度和姿势估计的深度策略(DCDP)和轻型一致的校准机制(LCC)。dcdp对夫妇融合和损失函数的利用对夫妇深度和构图估计模式的限制确保了连续帧之间几何投影的无缝比对。同时,LCC通过重新校准相邻帧的光度值来解释亮度变化,从而增强了Colvo的鲁棒性。对COLVO在结肠探测基准上进行的全面评估揭示了其在深度和姿势估计的最新方法上的承受能力。我们还展示了两个有价值的应用:肠道立即定位和完整的3D重建。Colvo的代码可从https://github.com/xxx/xxx获得。
人类计算机的相互作用(HCI)已经显着发展,但它仍然在很大程度上取决于通过屏幕和手动输入设备的视觉通信。虽然该范式在可预见的未来可能仍然占主导地位,但这项研究表明,现有的用户界面(UI)也可以由大语言模型(LLMS)利用,以与计算机进行交互。通过将视觉模式集成到多模式框架中,LLM可以获得理解和操作UI元素的能力,使它们能够检索信息,运行功能并像人类一样执行各种任务。该框架利用视觉模型将UI组件和信息传达给LLM,然后将其语言理解功能杠杆化来检索信息,并操作键盘和鼠标输入。本文介绍了人类计算机交互的新元素(HCI),称为LLM-Computer交互(LLMCI),该元素将大型语言模型(LLMS)与通过智能代理结合的计算机视觉结合在一起。这些代理处理用户文本命令并使用视觉感知来识别计算机接口的视觉和文本元素。这允许Mul-timodal AI独立执行复杂的任务,并以类似于人类行为的方式导航应用程序。我们提出了一个概念验证框架,该框架说明了代理如何使用LLM和计算机愿景来处理相互元素,完成任务并根据其说明提供支持。这种策略密切模仿人类的互动,并提出了增强HCI实践的前进道路。
摘要。基于脑电图(EEG)(EEG)的情绪识别已在神经信号处理和情感计算等领域引起了很大的关注和多样化的发展。然而,个体的独特大脑解剖结构导致跨受试者的脑电图信号的不可忽视的自然差异,这对跨主题情绪识别提出了挑战。尽管最近的研究试图解决这些问题,但它们仍然面临实际有效性和模型框架团结的局限性。当前的方法通常难以捕获EEG信号的复杂空间 - 时间动力学,并且无法有效地整合Mul-timodal信息,从而导致次优性能和跨受试者的普遍性有限。为了克服这些局限性,我们将基于预先训练的模型多模式读取器进行跨性能情绪识别,该识别利用了掩盖的脑信号建模和相互联系的时空注意机制。该模型通过在大规模数据集上进行预训练来学习EEG信号的通用潜在表示,并采用相关的时空注意机制来处理从EEG数据提取的差异熵(DE)特征。随后,提出了一个多级融合层以赋予歧视性特征,从而最大程度地提高了不同维度和模态的fe构的优势。公共数据集上的广泛实验证明了情绪阅读器在跨主题情感识别任务中的出色表现,表现优于最先进的方法。此外,该模型是从关注观点中解剖的,对与情绪相关的大脑区域进行定性分析,为神经信号处理中的情感研究提供了有价值的见解。