我的主要研究兴趣包括知识代表和推理,认知系统,机器学习和控制系统,以及适用于与人类合作的自适应机器人和代理。i设计算法和体系结构:(a)用定性和定量描述常识域知识和不确定性的定性和定量描述; (b)基于从环境和人类获得的mul-timodal传感器线索进行交互和累积学习; (c)使设计师能够理解机器人的行为并确定其满足所需的属性。此外,我对支持在诸如气候信息学,农业灌溉管理和智能运输等领域中自动化的算法感兴趣。
等。,2023)。这些模型包括公开可用-042 Able LLM(Touvron等人,2023; Chiang等。,043 2023; Taori等。,2023)带有视觉编码器和044其他可学习参数(Hu等人,2022; 045 Liu等。,2023b; Li等。,2023a)。将LLMS 046适应视频方式,从而提高了他们的能力047解释视觉内容,它们都使用多模式049指令数据进行了Su-048 perved-048 perved-048(SFT)阶段(Luo等人(Luo等)(Luo等),2023; Muham-050 Mad Maaz和Khan,2023年; Li等。,2023b)。051然而,视频052和文本之间的多模式对齐面临着不足053的重大挑战053的体积和多模式指令质量 - 与仅文本数据相比,多模式指令-054调音数据;仅文本的055数据通常很丰富且多样化,而mul-056 timodal数据通常受到数量和057全面性的限制(Wei等人。,2021;刘等。,058
准确的脑肿瘤分割是临床诊断和外科治疗的重要步骤。多模态脑肿瘤分割在很大程度上依赖于有效的融合方法和优秀的分割网络。然而,由于图像损坏、采集协议、扫描仪可用性和扫描成本等原因,临床场景中经常会缺少一些 MR 模态,这会严重降低肿瘤分割准确性,也会导致下游疾病分析的信息丢失。为了解决这个问题,我提出了一种新颖的多模态特征融合和潜在特征学习引导的深度神经网络。一方面,当一个或多个模态缺失时,所提出的网络可以帮助分割脑肿瘤。另一方面,它可以检索缺失的模态以补偿不完整的数据。所提出的网络由三个关键组件组成。首先,提出一个多模态特征融合模块 (MFFM) 来有效地融合来自不同模态的互补信息,包括跨模态融合模块 (CMFM) 和多尺度融合模块 (MSFM)。其次,提出了一种基于空间一致性的潜在特征学习模块 (SC-LFLM),以利用多模态潜在相关性并提取相关特征以有利于分割。第三,集成多任务学习 (MTL) 路径来监督分割并恢复缺失的模态。在 BraTS 2018 数据集上对所提出的方法进行了评估,与最先进的方法相比,当一个或多个模态缺失时,它可以实现更好的分割结果。此外,所提出的模块可以轻松适应其他多模态网络架构和研究领域。
简介高级别胶质瘤 (HGG) 是一种中枢神经系统恶性肿瘤,在成人和儿童中均有发生(1、2)。WHO 将 HGG 归类为 3 级和 4 级肿瘤,其特征是细胞过多、细胞核异形性、微血管增生和中心坏死(3-5)。HGG 在成人中更为常见,超过一半 (60%) 的胶质瘤被诊断为 HGG,而儿童中只有大约 10%-15% 的中枢神经系统肿瘤被诊断为 HGG,而低级别胶质瘤更为常见(6-8)。治疗包括手术、放疗和化疗相结合的多模式方案。然而,这些治疗无效,不到 20% 的患者在诊断后 5 年内存活(9-11)。因此,迫切需要寻找这种毁灭性疾病的创新疗法并改善生存结果。
最近开发的离散扩散模型在文本到图像任务中表现出色,显示出处理多形式信号的巨大希望。在这项工作中,我们利用这些特征,并提出一个可以使用单个模型,基于文本的,基于图像的,甚至具有远见性的同时生成的统一的模型模型,该模型可以执行“模态翻译”和“多模式生成”任务。具体而言,我们通过提出一个统一的过渡矩阵来统一多模式信号的离散扩散过程。此外,我们设计了一个具有融合嵌入层和统一的目标函数的相互注意模块,以强调模式间链接,这对于多模式生成至关重要。广泛的实验表明,我们提出的方法可以与各种一代任务中的最新解决方案相当地执行。
癌症相关疼痛和慢性疼痛会对患者的生活质量产生深远影响。为了有效缓解癌症疼痛,通常需要多模式镇痛,即使用多种镇痛药物组合来针对疼痛路径上的不同位置。8 治疗癌症疼痛的方法传统上是分步和多模式的,包括根据 WHO 三步镇痛阶梯处方的抗炎药、加巴喷丁类药物和阿片类药物的组合。9 由于许多接受阿片类药物治疗的癌症患者仍然会经历无法控制的疼痛,因此 WHO 阶梯进行了修订,最近的进展包括研究非传统神经分子靶点,利用额外的药物和非药物治疗疼痛,例如抗抑郁药、抗惊厥药、局部神经阻滞剂、硬膜外麻醉、患者控制镇痛泵和综合疗法。10,11
企业文档,例如表格,收据,报告和其他此类记录,通常在文本和规范模式的交集中携带丰富的语义。其复杂布局提供的视觉提示在有效地培养这些文档中起着至关重要的作用。在此过程中,我们提出了Docllm,这是传统大型语言模型(LLMS)的轻量级扩展,以考虑文本语义和空间布局,以通过视觉文档进行推理。我们的模型通过避免昂贵的图像编码器并专注于边界框信息以结合空间外部结构,这与现有的Mul- Timodal llms不同。具体而言,文本和空间方式之间的交叉对齐是通过将经典变压器中的注意机制分解为一组分离的矩阵来捕获的。此外,我们设计了一个学会填充文本段的预训练目标。这种方法使我们能够解决视觉文档中经常遇到的不规则布局和异质内容。使用大规模的指定数据集对预训练的模型进行了微调,涵盖了四个核心文档中的识别任务。我们证明,在所有任务中,在16个数据集中的14个数据集中,我们的解决方案的表现优于Sota LLMS,并概括为5个以前看不见的数据集中的4个。
基于多模态生理信号的情绪识别受到越来越多的关注,然而如何处理多模态生理信号的一致性和异质性,以及不同主体之间的个体差异,是跨主体情绪识别的两个重要挑战。本文提出了一种多级解缠结网络MDNet,用于基于多模态生理信号的跨主体情绪识别。具体而言,MDNet由模态级解缠结模块和主体级解缠结模块组成。模态级解缠结模块将多模态生理信号投影到模态不变子空间和模态特定子空间,捕获模态不变特征和模态特定特征。主体级解缠结模块从多模态数据中分离出不同主体间主体共享特征和主体私有特征,从而促进跨主体情绪识别。在两个多模态情感数据集上进行的实验表明,MDNet 优于其他最先进的基线。
生理自适应虚拟现实可以驱动交互并调整虚拟内容,以更好地满足用户的需求并支持特定目标。然而,心理生理推理的复杂性阻碍了有效的适应,因为认知和生理特征之间的关系很少表现出一一对应关系。因此,有必要采用多模态方法来评估适应的效果。在这项工作中,我们分析了在与 VR 自适应系统交互过程中获得的多模态数据集 (EEG、ECG 和 EDA),该系统使用 EDA 作为适应次要任务难度的输入。我们评估了动态调整对不同生理特征及其相关性的影响。我们的结果表明,当自适应系统增加次要任务难度时,θ、β 和相位 EDA 特征会增加。此外,我们发现在难度调整过程中,θ、α 和β 振荡之间存在高度相关性。我们的结果显示了如何使用特定的 EEG 和 EDA 特征来评估 VR 自适应系统。
之前已经开展了初步研究,提出了使用脑信号(例如非侵入性EEG和侵入性sEEG / ECoG)的基于语音的BCI,但缺乏综合方法来研究非侵入性大脑,发音和语音信号,并分析大脑中的认知过程,发音运动的运动学和由此产生的语音信号。在本文中,我们描述了我们的多模态(脑电图,超声舌成像和语音)分析和合成实验,作为可行性研究。我们扩展了使用基于超声的发音数据对语音生成过程中记录的脑信号的分析。从用EEG测量的脑信号中,我们使用完全连接的深度神经网络预测舌头的超声图像。结果表明,EEG和超声舌头图像之间存在微弱但明显的关系,即网络可以区分发音语音和中性舌头位置。索引词:超声,EEG,脑机接口