摘要在本文中,我们介绍了基于视觉和文本数据的跨模式融合的新型端到端多模式字幕字幕框架。所提出的方法集成了模态意见模块,该模块使用互相关捕获视觉文本间模型的关系。此外,我们将时间关注集成到3D CNN获得的功能中,以使用面向任务的培训来学习视频中的上下文信息。此外,我们结合了一项辅助任务,该任务采用对比损失函数来增强模型的概括能力并促进对模式间关系和潜在语义的更深入的理解。任务涉及将视频转录的多模式代表与标题表示形式进行比较,从而促进了模型中改善的性能和知识转移。最后,变压器架构用于使用注意机制有效捕获和编码文本和视频信息之间的相互依赖性。在解码阶段,变压器允许模型在编码功能中关注相关元素,有效地捕获了长距离依赖性,并最终生成具有语义意义的字幕。在MSRVTT基准测试上进行的实验评估验证了提出的方法,该方法的实验方法分别达到了BLEU4,Rouge和流星得分分别为0.4408、0.6291和0.3082。与最先进的方法相比,所提出的方法显示出卓越的性能,在所考虑的三个指标中,性能的增长范围从1.21%到1.52%。
动机:精确药物利用患者特定的多模式数据来改善预防,诊断,预后和疾病治疗。提前的精确医学需要复杂,异质和潜在高维数据来源(例如多摩学和临床数据)的非平凡整合。在文献中,已经提出了几种方法来管理丢失的数据,但通常仅限于一部分患者的特征子集的恢复。在很大程度上被忽略的问题是当一个或多个患者完全缺少其中一个或多个数据来源时,这是临床实践中相对常见的状况。结果:我们提出了Miss类似网络融合(MISS-SNF),这是一种新型的通用数据集成方法,旨在在患者相似性网络的背景下管理完全缺失的数据。miss-snf通过利用从SNF算法借来的非线性消息通讯策略来整合不完整的单峰患者相似性网络。Miss-SNF能够恢复缺失的患者相似性,并且是“任务不可知论”,从某种意义上说,可以整合无监督和监督预测任务的部分数据。对来自癌症基因组图集(TCGA)的九个癌症数据集的实验分析表明,Miss-SNF达到最先进的方法会导致恢复相似性并识别出在临床上相关变量中富集的患者亚组,并具有差异性生存率。可用性和实现:在R中实现的MISS-SNF代码可在https://github.com/ anacletolab/misssnf上找到。此外,截肢实验表明,MISS-SNF监督了对整体生存和无进展间隔事件的预测,完全缺少数据的结果可与所有数据可用时获得的结果相当。
抽象背景:意识障碍(DOC)是严重的神经系统疾病,其中意识受到各种程度的损害。它们是由调节唤醒和意识的神经系统的伤害或故障引起的。在过去的几十年中,已经为受DOC影响的患者改善和个性化诊断和预后准确性方面的重大努力已被制定,主要集中于引入多模式评估以补充行为检查。目前由欧盟资助的多中心研究项目“ Perbrain”旨在开发由DOC患者的行为和多模式神经诊断的指导的个性化诊断等级途径。方法:在这个项目中,每个入学的患者都会根据患者量的多层工作流程进行重复的行为,临床和神经诊断评估。在患者临床进化的不同阶段,使用最先进的技术进行了多模式诊断习得。应用的技术包括良好的行为量表,创新的神经生理技术(例如定量的电透明层和经颅磁刺激与脑电图相结合),结构性和休息状态功能磁共振成像(以及生理学活性的测量)鼻气流呼吸)。此外,还研究了患者非正式护理人员(主要是家庭成员)的福祉和治疗决策态度。患者和护理人员评估是在急性疾病阶段开始后一年内在多个时间点进行的。讨论:DOC的准确分类和结果预测对受影响的患者及其护理人员至关重要,因为个人的康复策略和治疗决策在很大程度上取决于后者。Perbrain项目旨在优化单个DOC诊断和结果预测的准确性
本研究调查了两个问题。一是:除了单个单词之外的句子处理在多大程度上独立于输入模态(语音与阅读)?第二个问题是:两种模态所招募的网络的哪些部分对句法复杂性敏感?这些问题是通过让 200 多名参与者阅读或聆听格式良好的句子或一系列不相连的单词来调查的。发现一个主要位于左半球的额颞顶网络本质上是超模态的,即独立于输入模态。此外,左下额叶 (LIFG) 和左后中颞叶 (LpMTG) 与左分支复杂性最明显相关。左前颞叶对右分支复杂性不同的句子表现出最大的敏感性。此外,LIFG 和 LpMTG 中的活动从句子开始到结束增加,同时左分支复杂性也增加。虽然 LIFG、双侧前颞叶、后 MTG 和左下顶叶均对超模态统一过程有所贡献,但结果表明这些区域对句法复杂性相关处理的贡献各不相同。本文讨论了这些发现对语言处理的神经生物学模型的影响。
特征为平坦、上升、下降-上升或下降。每个声谱图内的轮廓用白色虚线突出显示。 (B) 视觉音调标记在感知上与每个音调的音高轮廓一致,可用于多感官感知丰富。 (C) 视觉表示在语义上与 (A) 中呈现的音调的单词含义一致,可用于多感官语义丰富。 (D) 音高轮廓的手势、感知一致的表示。来源:认知科学趋势 (2022)。DOI:10.1016/j.tics.2022.10.007
硬件技术和分析方法的进步使脑电图 (EEG) 实验具有越来越多的移动性。除了神经活动之外,移动大脑/身体成像 (MoBI) 研究还可以记录各种类型的数据,例如运动或眼动追踪。尽管有可用的选项可以以标准化的方式分析 EEG 数据,但它们并不能完全涵盖来自移动实验的复杂多模态数据。因此,我们提出了 BeMoBIL 管道,这是 MATLAB 中一个易于使用的管道,支持时间同步处理多模态数据。它基于 EEGLAB 和 fieldtrip,由用于 EEG 预处理和随后的源分离的自动化功能组成。它还提供用于运动数据处理和从不同数据模态中提取事件标记的功能,包括使用独立成分分析从 EEG 中提取眼动和步态相关事件。该管道引入了一种新的稳健方法,用于基于感兴趣区域的独立 EEG 成分的组级聚类。最后,BeMoBIL 管道在各个处理步骤中提供分析可视化,保持分析透明并允许对结果进行质量检查。所有参数和步骤都记录在数据结构中,可以使用相同的脚本完全复制。该流程使(移动)EEG 和身体数据的处理和分析更加可靠,并且不受个别研究人员的先前经验的影响,从而促进了 EEG 的一般使用,特别是 MoBI。这是一个开源项目,可在 https://github.com/BeMoBIL/bemobil-pipeline 下载,允许将来进行社区驱动的改编。
硬件技术和分析方法的进步使脑电图 (EEG) 实验具有越来越多的移动性。除了神经活动之外,移动大脑/身体成像 (MoBI) 研究还可以记录各种类型的数据,例如运动或眼动追踪。尽管有可用的选项可以以标准化的方式分析 EEG 数据,但它们并不能完全涵盖来自移动实验的复杂多模态数据。因此,我们提出了 BeMoBIL 管道,这是 MATLAB 中一个易于使用的管道,支持时间同步处理多模态数据。它基于 EEGLAB 和 fieldtrip,由用于 EEG 预处理和随后的源分离的自动化功能组成。它还提供用于运动数据处理和从不同数据模态中提取事件标记的功能,包括使用独立成分分析从 EEG 中提取事件。该管道引入了一种新的稳健方法,用于基于感兴趣区域的独立 EEG 成分的组级聚类。最后,BeMoBIL 管道在各个处理步骤中提供分析可视化,保持分析透明并允许对结果进行质量检查。所有参数和步骤都记录在数据结构中,可以使用相同的脚本完全复制。该流程使(移动)EEG 和身体数据的处理和分析更加可靠,并且不受个别研究人员的先前经验的影响,从而促进了 EEG 的一般使用,特别是 MoBI。这是一个开源项目,可在 https://github.com/BeMoBIL/bemobil-pipeline 下载,允许将来进行社区驱动的改编。
摘要:随着加密流量的兴起,传统的网络分析方法变得越来越有效,导致转向基于深度学习的方法。其中,基于多模式的基于学习的分类方法由于能够利用加密流量的各种功能集而提高了分类准确性,因此引起了人们的关注。但是,现有的研究主要依赖于晚期融合技术,这阻碍了数据中深度特征的全面利用。为了解决此限制,我们提出了一种新型的多模式加密流量分类模型,该模型将模态融合与多尺度特征提取同步。具体来说,我们的方法在特征提取的每个阶段进行实时融合方式,在每个级别上增强特征表示,并保留层间相关性,以实现更有效的学习。这种连续的融合策略提高了模型检测加密流量中细微变化的能力,同时促进其鲁棒性和对不断发展网络条件的适应性。对两个现实世界加密的流量数据集的实验结果表明,我们的方法达到的分类精度为98.23%和97.63%,表现优于现有的基于多模式学习的方法。
摘要 - 近年来,使用运动图像的大脑计算机界面(BCI)显示出一些局限性在控制质量方面。为了改善这项有前途的技术,一些研究旨在与其他技术(例如眼睛跟踪)开发混合BCI,这些技术显示出更可靠的可靠性。但是,在机器人控制中使用眼动仪可能会自身影响机构感(SOA)(SOA)和用于运动图像(MI)区域的大脑活动。在这里,我们探讨了代理意识与运动皮层活动之间的联系。为此,我们使用了投影在表面上的虚拟臂,该虚拟手臂由运动捕获控制或使用眼迹器凝视控制。我们发现,在凝视控制任务期间,电动机皮层有一项活动,并且对预计的机器人臂的控制会带来显着差异,这与观察机器人移动的情况有很大的差异。
首先,我要感谢Kpalma Kidiyo教授和Zhang Lu教授接受我的博士学位。学生,这为我提供了更深入研究科学研究领域的机会。他们的专业指导和卓越的学术专业知识使我能够获得宝贵的知识,这将使我一生都受益。我要感谢Bai Cong教授在到达法国之前和之后的众多澄清,协助和指导。我感谢Wang Qiong博士在我们的研究努力中的帮助和协作。我想对CSC/UT-INSA计划的老师和同学表示感谢。我要感谢父母的无条件爱与支持。最后但并非最不重要的一点是,我要感谢我的妻子丁·阿南(Ding Anan)的陪伴和监督。她的信任是我的燃料,她的安慰是我的避难所。我还要对我九个月大的女儿表示感谢,她的每一个微笑都价值十杯即时咖啡。见证多模式领域的快速发展,尤其是在我的博士学位期间,这确实是显着的。学生研究。每天带来新的和令人兴奋的多模式算法。在起草本手稿时,我遇到了许多新兴和改变游戏的多模式作品。然而,多模式遇到了几个挑战,包括无法解释性,基础计算资源需求以及伪造传播的风险。自然,每一个新兴的学科都带来了许多挑战。需要解决这些问题,以提高多模式系统的可靠性和效率。最后,我想介绍在计算机图形快速开发时代写的书中写的两个引号[1]。