人机交互 (HRI) 研究需要大量考虑实验设计,以及大量时间来实践主题实验。虚拟现实 (VR) 的最新技术可以潜在地解决这些时间和精力挑战。VR 系统对 HRI 的显著优势是:1) 降低成本,因为实验设施不需要在真实环境中进行;2) 为测试对象提供相同的环境和具体交互条件;3) 可视化现实中无法发生的任意信息和情况,例如回放过去的经历,以及 4) 轻松访问沉浸式和自然的机器人/化身远程操作界面。尽管具有其功能的 VR 工具已在以前的 HRI 研究中应用和开发,但仍然没有全面的工具或框架。特别是,与云计算集成的好处尚未得到全面考虑。因此,本研究的目的是提出一个研究平台,通过集成 VR 和云技术,可以全面提供 HRI 研究所需的元素。为了实现灵活且可重复使用的系统,我们开发了机器人操作系统 (ROS) 和 Unity 之间的实时桥接机制。为了确认该系统在实际 HRI 场景中的可行性,我们将所提出的系统应用于三个案例研究,包括一个名为 RoboCup@Home 的机器人比赛。通过这些案例研究,我们验证了该系统的实用性及其通过多模态 HRI 开发和评估社交智能的潜力。
本研究调查了两个问题。一是:除了单个单词之外的句子处理在多大程度上独立于输入模态(语音与阅读)?第二个问题是:两种模态所招募的网络的哪些部分对句法复杂性敏感?这些问题是通过让 200 多名参与者阅读或聆听格式良好的句子或一系列不相连的单词来调查的。发现一个主要位于左半球的额颞顶网络本质上是超模态的,即独立于输入模态。此外,左下额叶 (LIFG) 和左后中颞叶 (LpMTG) 与左分支复杂性最明显相关。左前颞叶对右分支复杂性不同的句子表现出最大的敏感性。此外,LIFG 和 LpMTG 中的活动从句子开始到结束增加,同时左分支复杂性也增加。虽然 LIFG、双侧前颞叶、后 MTG 和左下顶叶均对超模态统一过程有所贡献,但结果表明这些区域对句法复杂性相关处理的贡献各不相同。本文讨论了这些发现对语言处理的神经生物学模型的影响。
1 引言 虚拟现实 (VR) 本质上不同于传统媒体,因为它引入了额外的自由度、更宽的视野、更复杂的声音空间化,甚至让用户可以控制摄像头。因此,VR 沉浸式设置(如头戴式显示器 (HMD) 或类似 CAVE 的系统)有可能改变内容消费方式,提高真实感、沉浸感和参与度。这已经影响了许多应用领域,如教育和培训 [ 29 ]、康复和神经科学 [ 183 , 237 ] 或虚拟电影摄影 [ 194 ]。这些系统的关键方面之一在于它们能够重现来自不同模态(主要是视觉和听觉,也有触觉、嗅觉、味觉或本体感受)的感官信息,这给它们带来了前所未有的潜力。
自从DNA双螺旋结构被发现以来,基因组研究的范围不断扩大,我们对基因组的认识也得到了极大的进步;与此同时,许多模式生物的全基因组测序已经完成,而基因组编辑技术也正在迅速普及。过去的基因组研究主要集中在基因组信息的复制、修复、重组、分裂等信息层面,并进一步强调表观遗传调控来解释遗传现象。另一方面,DNA的物理性质,如硬度、扭转、超螺旋等,虽然是直接影响基因组结构的重要性质,但人们对其了解甚少。在本项目中,我们将重点研究基因组/DNA的物理性质,以了解基因组如何构建其结构以及如何发挥作用。我们将“基因组模态”定义为组织基因组结构和功能的多维模式。我们将从基因组模态的角度揭示基因组的真实面貌。为此,我们运用生物化学、细胞生物学、基因组科学、高分子物理学等方法,开辟了研究“基因组形态”的新领域。【研究项目内容】
摘要 — 目标:对同一现象进行多模态测量可提供互补信息并突出不同的观点,尽管每种方法都有各自的局限性。只关注单一模态可能会导致错误的推论,当研究的现象是疾病时,这一点尤其重要。在本文中,我们介绍了一种利用多模态数据来解决精神分裂症 (SZ) 中的断线和功能障碍假设的方法。方法:我们首先使用高斯图模型 (GGM) 估计和可视化提取的多模态数据特征内和之间的链接。然后,我们提出了一种基于模块化的方法,该方法可应用于 GGM 以识别与多模态数据集中的精神疾病相关的链接。通过模拟和真实数据,我们展示了我们的方法揭示了与疾病相关的网络中断的重要信息,而这些信息在关注单一模态时会被忽略。我们使用功能性磁共振成像 (fMRI)、扩散磁共振成像 (dMRI) 和结构磁共振成像 (sMRI) 来计算低频波动的分数振幅 (fALFF)、分数各向异性 (FA) 和灰质 (GM) 浓度图。使用我们的模块化方法分析这三种模态。结果:我们的结果显示缺失的链接仅由跨模态信息捕获,这可能在组件之间的断开连接中发挥重要作用。结论:我们在 SZ 患者的默认模式网络区域中发现了多模态 (fALFF、FA 和 GM) 断开连接,这在单一模态中是无法检测到的。意义:所提出的方法为捕获分布在多种成像模态之间的信息提供了一种重要的新工具。
摘要。我们解决了脑驱动研究中普遍存在的挑战,从文献难以恢复准确的空间信息并且需要特定主题的模型这一观察出发。为了应对这些挑战,我们提出了 UMBRAE,一种统一的多模态脑信号解码。首先,为了从神经信号中提取实例级概念和空间细节,我们引入了一种高效的通用脑编码器进行多模态脑对齐,并从后续的多模态大语言模型 (MLLM) 中恢复多个粒度级别的对象描述。其次,我们引入了一种跨主题训练策略,将特定主题的特征映射到一个共同的特征空间。这使得模型可以在没有额外资源的情况下对多个主题进行训练,甚至比特定主题的模型产生更好的结果。此外,我们证明这支持对新主题的弱监督适应,而只需要总训练数据的一小部分。实验表明,UMBRAE 不仅在新引入的任务中取得了优异的成绩,而且在成熟的任务中也优于方法。为了评估我们的方法,我们构建了一个全面的大脑理解基准 BrainHub 并与社区分享。我们的代码和基准可以在 https://weihaox.github.io/UMBRAE 上找到。
摘要 — 戏剧作品中的情感识别在基本的人机交互、情感计算和其他各种应用中起着关键作用。传统的单模态情感识别系统在捕捉人类情感的复杂性和细微差别方面往往面临挑战。为此,本研究调查了多种模态信息的整合,包括面部表情、语音和生理信号,以增强情感识别系统的稳健性和准确性。通过结合这些不同的信息来源,我们的目标是更全面地了解人类的情感,并提高情感识别模型的性能。该研究探索了各种方法,包括特征融合、注意力机制和跨模态迁移学习,以有效地结合和利用来自面部表情、语音和生理信号的信息。此外,我们解决了与领域适应和缺失数据处理相关的挑战,确保所提出的多模态方法在数据收集条件可能变化的现实场景中保持稳健。为了证实所提出方法的有效性,我们在为多模态情感识别精心制作的基准数据集上进行了实验。该数据集包括通过面部特征、录音和生理传感器捕捉到的各种情绪表达。评估指标经过精心选择,以评估模型在各种模式下捕捉人类情绪的复杂性和细化程度的能力。我们的研究通过深入了解面部表情、语音和生理信号之间的相互作用,加深了对多模态情绪识别的理解。所提出的框架不仅提高了情绪识别的准确性,而且还提供了对情绪状态的更全面理解,促进了人机交互和情感计算应用的进步。
结构在运行时可以做到即使某一个模态信息缺失整个网络也能取得不错的效果 , 在多通道情感识别、 语义理解、目标学习等领域取得很好的效果 .尽管如此 , 这类网络相对于任务来说还是相对 “ 具体 ”, 如 果要换一个任务 , 用户就需要修改网络结构包括重新调整参数 , 这使得深度神经网络结构的设计是一 个耗时耗力的过程 .因此研究者们希望一个混合的神经网络结构可以同时胜任多个任务 , 以减少其在 结构设计和训练方面的工作量 .鉴于此 , 研究者开始致力于首先采用大数据联合训练构建出多通道联 合特征分享层 , 然后在识别阶段可以同时进行多任务处理的深度多模态融合结构 .如 Google 的学者 尝试建议一个统一的深度学习模型来自适应地适配解决不同领域、不同数据模态下的多个不同类型 的任务 , 且在特定任务上的性能没有明显损失的模型 [71] .该模型构架请见文献 [71] 的图 2, 由处理输 入的编码器、编码输入与输出混合的混合器、混合输出的解码器 3 个部分构成 , 文献 [71] 的图 3 给 出了这 3 个部分的详细描述 .每一个部分的主体结构类似 , 均包含多个卷积层、注意力机制和稀疏门 控专家混合层 .其中 , 不同模块中的卷积层的作用是发现局部模式 , 然后将它泛化到整个空间 ; 注意力 模块和传统的注意力机制的主要区别是定时信号 , 定时信号的加入能让基于内容的注意力基于所处的 位置来进行归纳和集中 ; 最后的稀疏阵列混合专家层 , 由前馈神经网络 ( 专家 ) 和可训练的门控网络组 成 , 其选择稀疏专家组合处理和鉴别每个输入 .
在生命的最初几年,大脑会响应环境刺激而发生实质性的组织。在寂静的世界中,大脑可能通过 (i) 从听觉皮层招募资源和 (ii) 使视觉皮层更有效率来促进视觉。目前尚不清楚这些变化何时发生以及它们的适应性如何,植入人工耳蜗的儿童可以帮助解决这些问题。在这里,我们检查了 7-18 岁的儿童:50 名儿童植入了人工耳蜗,语言能力发育迟缓或与年龄相符,25 名儿童的听力和语言能力正常。高密度脑电图和功能性近红外光谱用于评估皮层对低级视觉任务的反应。有证据表明,语言发育迟缓的植入儿童存在“视觉皮层反应较弱”和“听觉联想区同步性较差或抑制性较差”的情况,这表明跨模态重组可能具有不良适应性,并不一定会增强主导视觉。