摘要。人们对采用基于 Transformer 的架构进行医学图像分割的兴趣日益浓厚。然而,由于缺乏大规模带注释的医学数据集,要实现与自然图像相当的性能具有挑战性。相比之下,卷积网络具有更高的归纳偏差,因此很容易训练到高性能。最近,ConvNeXt 架构试图通过镜像 Transformer 块来现代化标准 ConvNet。在这项工作中,我们在此基础上进行了改进,设计了一种现代化且可扩展的卷积架构,以应对数据稀缺的医疗环境的挑战。我们推出了 MedNeXt,这是一个受 Transformer 启发的大核分割网络,它引入了 - 1)用于医学图像分割的完全 ConvNeXt 3D 编码器-解码器网络,2)残差 ConvNeXt 上采样和下采样块以保持跨尺度的语义丰富性,3)一种通过上采样小核网络迭代增加核大小的新技术,以防止在有限的医疗数据上出现性能饱和,4)在 MedNeXt 的多个级别(深度、宽度、核大小)上进行复合缩放。这使得它在 CT 和 MRI 模态和不同数据集大小的 4 个任务上实现了最佳性能,代表了一种现代化的医学图像分割深度架构。我们的代码已公开发布:https://github.com/MIC-DKFZ/MedNeXt。
深度学习(DL)为实现航天器的自治,板载分析和智能应用程序提供了新的机会。然而,DL应用在计算密集型上,并且在辐射硬化(RAD-HARD)的处理器上通常不可行,传统上可以利用其商业商业现成的计算能力的一部分。商业FPGA和系统 - 芯片具有许多建筑优势,并提供了计算功能,以实现板载DL应用程序;但是,这些设备非常容易受到辐射诱导的单事件效率(SEE)的影响,可降低DL应用的可靠性。在本文中,我们提出了可重新配置的Convnet(Recon),这是可靠,高性能的语义分割的可重新配置加速框架。在侦察中,我们提出了选择性和自适应方法,以实现有效的方法,请参见缓解。在我们的选择性方法中,控制流部分受到三型冗余的有选择性保护,以最大程度地减少倾斜诱导的悬挂,并且在我们的自适应方法中,使用部分重新配置来调整数据流零件的缓解,以响应动态辐射环境。组合,这两种方法都使侦察能够最大程度地提高系统可行性,但要受到任务可用性约束。我们执行断层注射和中子照射,以观察侦察和使用可靠性建模的敏感性,以评估各种轨道案例研究中的侦察,以证明与静态方法相比,性能和能量效率的性能提高了1.5-3.0倍。
脑损伤或中风导致的脑损伤可能会演变为未确诊患者的言语功能障碍。使用基于 ML 的工具分析人类语音的韵律或发音语音可能有利于早期筛查未被发现的脑损伤。此外,解释模型的决策过程可以支持预测并采取适当措施来改善患者的语音质量。然而,依赖于低级描述符 (LLD) 的传统 ML 方法可能会牺牲详细的时间动态和其他语音特征。解释这些描述符也很有挑战性,需要付出巨大努力来理解特征关系和合适的范围。为了解决这些限制,本研究论文介绍了 xDMFCC,这是一种从单个语音话语中识别解释性判别声学生物标记的方法,可为语音应用中的深度学习模型提供局部和全局解释。为了验证这种方法,我们实施了该方法来解释在梅尔频率倒谱系数 (MFCC) 上训练的卷积神经网络 (CNN),以进行二元分类任务,以区分患者和对照组的发声。ConvNet 取得了令人满意的结果,f 分数为 75%(75% 的召回率、76% 的精确度),堪比传统机器学习基线。xDMFCCs 的与众不同之处在于它通过保留完整语音信号的 2D 时频表示进行解释。这种表示为区分患者和健康对照组提供了更透明的解释,提高了可解释性。这一进步使得对脑损伤的语音声学特征进行更详细、更令人信服的研究成为可能。此外,这些发现对于开发低成本、快速的未察觉脑损伤诊断方法具有重要意义。
摘要。基于脑电图(EEG)基于脑部计算机界面(BCI)的通道选择已被广泛研究了二十年,其目标是选择可以提高BCI的总体解码功效的最佳特定主题通道。随着基于深度学习(DL)模型的出现,出现了需要新的视角和新技术来进行渠道选择。在这方面,与受试者无关的通道选择相关,因为使用交叉主体数据训练的DL模型提供了出色的性能,并且尚未完全了解脑电图特征固有的主体间变异性在受试者独立的DL训练中的影响。在这里,我们提出了一种新的方法,用于使用层相关性传播(LRP)和神经网络修剪在基于DL的运动图像(MI)-BCI中实现主题独立通道选择。使用韩国大学(KU)EEG数据集的Deep Convnet和62通道MI数据进行了实验。使用我们提出的方法,由于LRP选择了高度相关的通道,因此我们在受试者独立的分类精度中降低了61%的通道数量(p = 0.09)。LRP相关的渠道选择提供了明显更好的精度,同时使用频道总数的40%,精度的差异范围为5.96%至1.72%。仅使用通道总数的16%的适应性稀疏LRP模型的性能与适应的基线模型相似(p = 0.13)。此外,适应的稀疏LRP模型的准确性仅使用频道总数的35%超过了改编的基线模型的准确性(p = 0.81)。LRP选择的通道的分析证实了选择的神经生理学合理性,并强调了MI-EEG分类中运动,顶叶和枕通道的影响。
摘要。目的:基于脑电图 (EEG) 的脑机接口 (BCI) 中的通道选择已进行了二十多年的广泛研究,目的是选择最佳的主体特定通道,以提高 BCI 的整体解码效率。随着基于深度学习 (DL) 的 BCI 模型的出现,需要新的视角和新颖的技术来进行通道选择。在这方面,与主体无关的通道选择很重要,因为使用跨主体数据训练的 DL 模型提供了卓越的性能,并且 EEG 特征的固有主体间变异性对与主体无关的 DL 训练的影响尚不完全清楚。方法:在这里,我们提出了一种在基于 DL 的运动想象 (MI)-BCI 中实现与主体无关的通道选择的新方法,使用逐层相关性传播 (LRP) 和神经网络修剪。实验使用来自韩国大学 (KU) EEG 数据集的 Deep ConvNet 和 62 通道 MI 数据进行。主要结果:使用我们提出的方法,由于 LRP 选择高度相关的通道,我们将通道数量减少了 61%,而与受试者无关的分类准确度没有任何显著下降(p=0.09)。基于 LRP 相关性的通道选择与传统的基于权重的选择相比提供了明显更好的准确度,同时使用了不到 40% 的总通道数,准确度差异范围为 5.96% 至 1.72%。仅使用总通道数 16% 的适应稀疏 LRP 模型的性能与适应基线模型的性能相似(p=0.13)。此外,仅使用总通道数 35% 的适应稀疏 LRP 模型的准确度比适应基线模型高出 0.53%(p=0.81)。对 LRP 选择的通道的分析证实了选择的神经生理学合理性,并强调了运动、顶叶和枕叶通道对 MI-EEG 分类的影响。意义:所提出的方法解决了 EEG-BCI 解码中的一个传统问题,同时与 BCI 领域的最新发展相关且适用。我们相信,我们的工作带来了模型可解释性作为一种解决问题的技术的有趣且重要的应用。
摘要 - 在事件相关的电位(ERP)信号分类中,在特定时间范围内识别相关的局部峰对于特征提取和随后的分类任务至关重要,尤其是在有关精神分裂症等精神疾病的研究中。但是,精神分裂症研究中的ERP数据通常包含许多对分类过程贡献的小峰。因此,至关重要的是,仅辨别和保留为改进分类结果传达特定特征的显着峰值。最近,基于高档和降尺度表示(UDR)技术的基于视觉的平滑算法已经证明了其在保留突出峰的特征时的有效性,同时从信号波形中滤除了非平衡峰。在UDR的操作下,输入信号在图像域中可视化。输入形状受到稀疏算法的影响,并将所得骨骼投射回信号域。此过程类似于神经科医生对信号的目视检查,在该信号中标记了突出的峰,而无关的峰被忽略了特征提取。这项研究将UDR应用于两个精神分裂症和匹配对照患者中记录的ERP的数据集,以评估其在信号分类中的有效性。此外,当使用较少的ERP通道时,我们分析了UDR对分类准确性的影响。我们使用多个分类器测试了这些效果。索引项 - 与事件相关电位(ERP),精神分裂症,平滑过滤器,信号处理,UDR,高档和下限表示实验结果表明,当在所有通道上应用UDR时,EEGNET表现出最显着的增强,精度增加了2.55%。此外,当信号时期的数量减半时,UDR在7个模型中有4个促进了增强,浅孔convnet的提高最高2.4%。值得注意的是,在仅FZ,CZ和PZ电极位置的信号形成的子数据集中使用UDR时,可以在更多模型上观察到精度增强。这些发现强调了UDR在增强精神分裂症分类准确性方面的有希望的潜力,尤其是应用于关注关键通道的数据集时。
手势,一种非语言交流的形式,涵盖了可见的身体动作,例如手动运动,面部表情或其他身体部位,以传达特定的信息,无论是或旁边还是语音。与不传达特定信息的非语言提示不同,手势可以传达广泛的情感和思想,例如批准,感情,蔑视或敌意,并且经常与口头语言一起使用以增强意义。某些手势,尤其是手势,可以像言语一样行事,在文化中具有固定的含义,但在不同文化中,甚至在同一文化中的子社区中都有很大变化。这种文化特殊性使得对手势的分类充满挑战,尤其是随着时间的流逝,例如从模仿传统手机到平坦手掌表示智能手机的“呼叫我”手势的转变。传统的用于控制PowerPoint演示文稿的系统,例如键盘,鼠标和演示文稿单击器,表现出明显的限制。这些设备要求主持人保持靠近演示设备,限制他们的运动,并且由于需要手动操作控制设备,因此通常会中断与观众的互动。此外,这些方法可能不精确,并且可能遭受滞后或错过的命令。现有的手势识别算法也因准确性,实时性能和对各种环境的适应性而挣扎。这些问题强调了一种更直观和免提的解决方案的必要性,该解决方案利用了AI和深度学习等先进技术来改善演示控制。人工智能(AI)涵盖了模仿人类认知功能(例如解决问题和学习)的系统,以及在面部和语音识别,决策和翻译等领域的应用。机器学习(AI的子集)涉及通过经验改善的算法。深度学习是机器学习中的一个专业领域,它使用具有多层的神经网络以受人脑启发的方式处理数据,从而识别图像,文本和声音中的复杂模式。卷积神经网络(CNNS)是一种深度学习模型,在分析视觉数据,通过卷积和合并层从数据中学习特征的能力来区分自己。在视频分析的上下文中,两流网络体系结构用于捕获空间和时间组件。这涉及通过单独的卷积神经网络(Convnet)流进行处理静止的框架和光流信息,然后通过晚期融合技术组合。空间流提取有关场景和对象的信息,而时间流则通过光流动位移捕获运动信息。此体系结构增强了识别