我们使用 Transformer [10] 来处理生理信号。Transformer 最初是为自然语言处理 (NLP) 任务开发的,目的是处理单词序列。鉴于生理信号是值序列,Transformer 可以适用于生理信号处理 [11]。Transformer 采用学习到的注意机制,根据上下文动态评分输入不同部分的相关性。基于注意的处理适合处理生理信号,因为根据任务和上下文,信号的某些部分可能比其他部分传达更多信息。使用 Transformer 的另一个好处是,我们可以从 BERT [12] 中描述的非常成功的预训练技术中受益,该技术是为 NLP 任务开发的,我们可以根据需要进行调整。这种预训练策略已成功应用于其他领域,如计算机视觉 [13]、语音处理 [14] 和情感计算 [15]。
已经开发出能够进行多模式运动的机器,这些机器能够在非结构化环境中机动,用于搜索和救援行动、[2] 监控和防御等应用。 [3] 这种多模态性通常通过 i)身体形状变形、ii)步态改变或 iii)使用不同的驱动或推进机制实现。 一种流行的方法是使用专门用于相应环境中运动的不同推进机制(例如,螺旋桨用于飞行和游泳,轮子用于陆地运动 [4,5] )。 然而,多种推进机制会使设计复杂化,并增加此类系统的重量。 同样,使用能够实现不同步态和运动模式的单一推进机制可以简化设计,但通常会导致在某些环境中的移动性受到更多限制。 [6–8] 一种有前途的替代方案是利用身体的可逆形状变形,这样就可以重新调整一组常见的执行器或机器人肢体,以执行新的地面接触或流体结构相互作用模式(参见参考文献 [9–11] 中的示例)。软机器人特别适合可逆形状变化,因为它们具有机械可变形性和对受控刺激的形态反应。最近,Baines 等人提出了一种形状变形肢体,它可以利用刚度调节在鳍状肢和腿之间变换。[12] 这种肢体被安装在受海龟启发的机器人 [6] 上,以促进两栖运动。Shah 等人提出了一种
在机器人辅助手术期间监测外科医生的工作量可以指导任务需求的分配、调整系统界面和评估机器人系统的可用性。当前测量认知负荷的做法主要依赖于主观且会扰乱手术工作流程的问卷。为了解决这一限制,展示了一个计算框架来预测远程机器人手术期间的用户工作量。该框架利用无线传感器来监测外科医生的认知负荷并预测他们的认知状态。在经过验证的达芬奇技能模拟器上执行手术技能任务的十二名外科医生同时记录了多种生理模式(例如心率变异性、皮肤电和脑电图活动)的连续数据。这些手术任务的难度各不相同,例如,需要不同的视觉处理需求和精细运动控制程度。使用独立成分分析融合收集的多模态生理信号,并将预测结果与真实工作量水平进行比较。结果比较了不同分类器、传感器融合方案和生理模态(即使用单一模态与多种模态进行预测)的性能。结果发现,我们的多传感器方法优于单个信号,并且可以在基本和复杂的手术技能任务中 83.2% 的时间内正确预测认知工作量水平。
情感计算是现代人机交互(HCI)中最重要的研究领域之一。情感计算的目标是研究和开发能够识别、解释、处理和模拟人类情感的理论、方法和系统。情感识别作为情感计算的一个分支,旨在启发机器/计算机自动分析人类情感,已受到各领域研究人员的广泛关注。人类通常通过整合感知到的面部表情、语音语调、言语内容、行为或生理特征信息来观察和理解一个人的情绪状态。为了模仿人类的情感观察方式,研究人员一直致力于通过融合两种或多种模态信息来构建多模态情感识别模型。本文从多模态数据集、数据预处理、单模态特征提取和多模态信息融合方法的角度,对近几十年来多模态情感识别进行了全面的回顾。此外,还指出并讨论了该主题面临的挑战和未来的研究方向。本评论的主要目的是总结最近出现的大量关于多模态情绪识别的研究,并为相关领域的研究人员提供潜在指导,以了解多模态情绪识别的流程和主流方法。
胶质瘤是最常见的原发性脑肿瘤类型之一,占所有病例的 30% 以上,它们由胶质干细胞或祖细胞发展而来。理论上,大多数脑肿瘤可以通过使用磁共振成像 (MRI) 来识别。每种 MRI 模态都会提供有关人脑软组织的不同信息,整合所有这些信息将为胶质瘤的准确分割提供全面的数据,这对于患者的预后、诊断和确定最佳后续治疗至关重要。不幸的是,由于各种原因,MRI 容易出现伪影,这可能导致一个或多个 MRI 模态缺失。多年来,已经提出了各种策略来合成缺失的模态或补偿其对自动分割模型的影响。然而,这些方法通常无法模拟潜在的缺失信息。在本文中,我们提出了一种风格匹配 U-Net (SMU-Net) 用于 MRI 图像上的脑肿瘤分割。我们的联合训练方法利用内容和风格匹配机制将全模态网络中的信息特征提取到缺失模态网络中。为此,我们将全模态和缺失模态数据编码到潜在空间中,然后将表征空间分解为风格和内容表征。我们的风格匹配模块通过学习匹配函数将信息和纹理特征从全模态路径转移到缺失模态路径,自适应地重新校准表征空间。此外,通过对互信息进行建模,我们的内容模块超越了信息量较少的特征,并根据判别性语义特征重新校准了表征空间。BraTS 2018 数据集上的评估过程显示了所提出方法在缺失模态场景中的重要性。关键词:缺失模态、脑瘤、内容风格匹配、分割。
有几种方法可以质疑物理系统状态的具体量子力学特性。首先,人们可能会问它的相干性有多强。量子态相干叠加的存在是物质波干涉现象的起源,因此,这是一个典型的量子特征,对此提出了几种测量和证据(有关最近的综述,请参阅 [1])。其次,当所研究的系统是二分或多分系统时,其组成部分的纠缠是另一个内在的量子特征。有大量文献探讨了各种测量方法来量化给定状态中包含的纠缠量 [2–14]。最后,对于玻色子量子场的模式,出现了第三种非经典性概念,通常称为光学非经典性。根据格劳伯的观点,光场的相干态(及其混合态)被视为“经典”,因为它们具有正的格劳伯-苏达山 P 函数 [15]。从那时起,多年来人们开发了多种光学非经典性测量方法,以测量与光学经典状态的偏离 [15–41]。光场量子态的这三种不同的、典型的量子属性被认为可作为量子信息或计量学的资源 [38, 39, 42–44]。那么自然而然地就会出现一个问题:这些属性之间有着什么样的定量关系。例如,在 [45] 中,给出了使用非相干操作从具有给定相干度的状态中可以产生多少纠缠的界限:这将相干性与纠缠联系起来。在 [46] 中,状态的相干性和光学非经典性被证明是相互关联的:远对角线密度矩阵元素 ρ ( x, x ′ ) 或 ρ ( p, p ′ ) 的显著值(称为“相干性”)是状态的光学非经典性的见证。我们的目的是建立多模玻色子场的光学非经典性和二分纠缠之间的关系。直观地看,由于所有光学经典态都是可分离的,因此强纠缠态应该是强光学非经典态。相反,仅具有弱光学非经典性的状态不可能高度纠缠。为了使这些陈述精确且定量,我们需要测量纠缠度和光学非经典性。作为评估二分纠缠的自然指标,我们使用形成纠缠 (EoF) [4]。关于光学非经典性,我们使用最近引入的单调性 [38, 39],我们将其称为总噪声单调性 ( M TN )。它是通过将纯态上定义的所谓总噪声∆x2+∆p2扩展到混合态(通过凸屋顶结构,参见(1))得到的,对于该值来说,它是光学非经典性的一个完善的量度[38–41]。我们的第一个主要结果(定理 1 和 1')在于,对于 n = n A + n B 模式的二分系统的任意状态 ρ,EoF(ρ) 关于 M TN (ρ) 的函数有一个上限。特别地,当 n A = n B = n/ 2 时,这个上限意味着包含 m 个纠缠比特的状态必须具有光学非经典性(通过 M TN 测量),并且该光学非经典性随 m 呈指数增长。作为应用,我们表明,当可分离纯态撞击平衡光束分束器时可以产生的最大纠缠度由该状态的光学非经典性的对数所限制,通过 M TN 测量。换句话说,虽然众所周知分束器可以产生纠缠 [28, 47, 48],但纠缠量受到本态光学非经典性程度的严重限制。定理 1 和 1' 中的界限可以很容易地计算出纯态的界限,因为 EoF 与还原态的冯·诺依曼熵相重合,而 M TN 与总噪声相重合。然而,对于混合态,界限与两个通常难以评估的量有关。我们的第二个主要结果(定理 2)解决了这个问题
摘要 医学界高度关注的领域之一是从脑磁共振成像 (MRI) 中分割肿瘤。早期诊断恶性肿瘤对于为患者提供治疗是必要的。如果及早发现,患者的预后将会改善。医学专家在诊断脑肿瘤时使用手动分割方法。本研究提出了一种简化和自动化该过程的新方法。在最近的研究中,多级分割已广泛应用于医学图像分析,分割方法的有效性和精度与使用的分割数量直接相关。然而,选择合适的分割数量通常由用户决定,并且对于许多分割算法来说都是具有挑战性的。所提出的方法是基于 3D 直方图的分割方法的修改版本,该方法可以自动确定合适的分割数量。一般算法包含三个主要步骤:第一步是使用高斯滤波器平滑图像的 3D RGB 直方图。这样可以消除过于接近的不可靠和非主导直方图峰值。接下来,多峰粒子群优化方法识别直方图的峰值。最后,根据非欧几里得距离将像素放置在最符合其特征的聚类中。所提出的算法已经应用于癌症成像档案 (TCIA) 和脑 MRI 图像的脑肿瘤检测数据集。将所提出方法的结果与三种聚类方法的结果进行了比较:FCM、FCM_FWCW 和 FCM_FW。在对各种 MRI 切片进行这三种算法的比较分析中。我们的算法始终表现出卓越的性能。它在这三个指标中都获得了最高平均排名,表明了其在聚类中的稳健性和有效性。所提出的方法在实验中是有效的,证明了它能够找到适当的聚类。
然而,从最近的研发趋势来看,大多数挑战有可能在 2025 年左右得到克服。正在积极探索的方向是,基于大规模语言模型,集成负责语音识别、图像识别、视频分析的多个模块,并在单个AI系统内无缝处理。这样,AI 就可以通过发出指令来自动创建角色设计和动画,例如“制作一条狗追球的短视频”或“生成主角说这些台词的动画”。服务有可能甚至可以处理语音音调和视频编辑将成为现实。使用人工智能自由生成视频和音频的能力可能会彻底改变从电影制作和游戏开发到商业演示、在线教育和个人创意活动等广泛的领域。
摘要:本研究旨在调查多模态模式对远程塔台环境的贡献。使用交互式空间声音和振动触觉反馈设计了 4 种不同类型的交互和反馈,以响应 4 种典型的空中交通管制用例。实验涉及 16 名专业空中交通管制员,他们被要求在生态实验条件下管理 4 种不同的 ATC 场景。在其中两种场景中,参与者只需控制一个机场(即单远程塔台环境),而在另外两种场景中,参与者必须同时控制两个机场(即多远程塔台环境)。增强模式以平衡的方式激活或不激活。行为结果强调,当在单远程塔台环境中激活增强模式时,参与者的整体表现显着提高。这项工作表明,某些类型的增强模式可用于远程塔台环境。
本节给出了实验结果。使用 Wang 等人提供的数据集对所提出的方法进行了评估。[25]。他们的数据收集了六个异构网络,包括药物-药物相互作用网络、蛋白质-蛋白质相互作用网络、药物-蛋白质相互作用网络、药物-疾病关联网络、蛋白质-疾病关联网络和药物副作用关联网络。药物-药物和蛋白质-蛋白质相互作用网络是从 Drugbank 版本 3.0 [26] 和 HPRD 数据库版本 9 [27] 中提取的。这些网络包括 708 个独特药物节点和 1512 个独特蛋白质节点。药物-药物和蛋白质-蛋白质相互作用网络包括 10036 和 7363 条边。药物-靶标相互作用网络是从 Drugbank 版本 3.0 [26] 中提取的,有 1923 条边。药物-疾病和蛋白质-