摘要 - 从鸟类的视图(BEV)角度来看,语义场景细分在促进移动机器人的计划和决策方面起着至关重要的作用。尽管最近仅视力的方法表现出了显着的性能进步,但它们通常在不利的照明条件下(例如降雨或夜间)挣扎。虽然主动传感器为这一挑战提供了解决方案,但激光雷达的高成本仍然是一个限制因素。将摄像机数据与汽车雷达融合起来是更便宜的替代方法,但在先前的研究中受到了较少的关注。在这项工作中,我们旨在通过引入Bevcar(一种新型的BEV对象和地图细分方法)来推动这一有希望的途径。我们方法的核心新颖性在于首先学习原始雷达数据的基于点的编码,然后将其利用以有效地将图像特征抬起到BEV空间中。我们对Nuscenes数据集进行了广泛的实验,并证明Bevcar优于当前的技术状态。此外,我们表明,合并雷达信息显着提高了挑战性环境条件中的鲁棒性,并提高了远处对象的细分性能。为了培养未来的研究,我们提供了实验中使用的Nuscenes数据集的天气拆分,以及http://bevcar.cs.uni-freiburg.de的代码和训练有素的模型。
部分遮挡图像识别 (POIR) 问题长期以来一直是人工智能面临的挑战。处理 POIR 问题的常用策略是使用非遮挡特征进行分类。不幸的是,当图像被严重遮挡时,此策略将失去效果,因为可见部分只能提供有限的信息。神经科学领域的一些研究表明,特征恢复(填充遮挡信息并称为非模态补全)对于人脑识别部分遮挡图像至关重要。然而,特征恢复通常会被 CNN 忽略,这可能是 CNN 对 POIR 问题无效的原因。受此启发,我们提出了一种新颖的受大脑启发的特征恢复网络 (BIFRNet) 来解决 POIR 问题。它模拟腹侧视觉通路来提取图像特征,并模拟背侧视觉通路来区分遮挡和可见图像区域。此外,它还使用知识模块存储对象先验知识,并使用完成模块根据可见特征和先验知识恢复遮挡特征。在合成和真实世界遮挡图像数据集上进行的深入实验表明,BIFRNet 在解决 POIR 问题方面优于现有方法。特别是对于严重遮挡的图像,BIRFRNet 大大超越其他方法,接近人脑性能。此外,受大脑启发的设计使 BIFRNet 更具可解释性。
由于疾病的复杂性和有限的数据集大小,大脑MRI图像的阿尔茨海默氏病(AD)分类仍然是一个艰巨的任务。卷积神经网络(CNN)在使用MRI数据的脑部疾病分类方面表现出色,但它们与逮捕全球依赖性无能为力。此外,他们的结果不可解释,这是医疗领域的主要问题。变压器使用注意机制在各种视觉任务上都可以使用甚至超过CNN。本研究提出了一个新型的融合模型,该模型整合了Densenet-121和Vision Transformer的互补优势,以应对这些挑战。通过协同两种体系结构的优势,提出的融合模型提取了全面的图像特征。为了进一步优化特征歧视和计算效率,并入了基于外部分类器的特征选择技术。使用标准指标评估所提出的模型的性能,并与最先进的技术进行比较。结果表明,较高的分类精度为99%,融合模型有效地区分了各个AD阶段。此外,使用类激活图(CAM)可视化模型的决策过程,从而增强对模型预测的信任。我们还提供了Grad-CAM,Grad-CAM ++,Score-CAM和更快的得分摄像机可视化技术的视觉比较,以评估这些技术的性能,以突出显示AD分类的区分区域。
可变形图像配准是医学图像分析的基本步骤。最近,Transformer 已用于配准,其表现优于卷积神经网络 (CNN)。Transformer 可以捕获图像特征之间的长距离依赖性,这已被证明对配准有益。然而,由于自注意力的计算/内存负载高,Transformer 通常用于下采样特征分辨率,无法捕获全图像分辨率下的细粒度长距离依赖性。这限制了可变形配准,因为它需要每个图像像素之间精确的密集对应关系。没有自注意力的多层感知器 (MLP) 在计算/内存使用方面效率高,从而可以捕获全分辨率下的细粒度长距离依赖性。然而,MLP 尚未在图像配准中得到广泛探索,并且缺乏对医学配准任务至关重要的归纳偏差的考虑。在本研究中,我们提出了第一个基于相关感知 MLP 的配准网络 (CorrMLP) 用于可变形医学图像配准。我们的 CorrMLP 在新颖的粗到细配准架构中引入了关联感知多窗口 MLP 块,该架构可捕获细粒度多范围依赖性以执行关联感知粗到细配准。对七个公共医疗数据集进行的大量实验表明,我们的 CorrMLP 优于最先进的可变形配准方法。
由于具有二进制和事件驱动架构,脉冲神经网络 (SNN) 在节能神经形态芯片方面具有巨大潜力。SNN 主要用于分类任务,但在图像生成任务方面的探索有限。为了填补这一空白,我们提出了一种脉冲扩散模型,该模型基于矢量量化离散扩散模型。首先,我们开发了一个带有 SNN 的矢量量化变分自动编码器 (VQ-SVAE) 来学习图像的离散潜在空间。在 VQ-SVAE 中,使用脉冲发放率和突触后电位对图像特征进行编码,并设计了一个自适应脉冲生成器来以脉冲序列的形式恢复嵌入特征。接下来,我们在离散潜在空间中执行吸收态扩散,并构建一个带有 SNN 的脉冲扩散图像解码器 (SDID) 来对图像进行去噪。我们的工作是第一个完全从 SNN 层构建扩散模型的工作。在 MNIST、FMNIST、KMNIST、Letters 和 Cifar10 上的实验结果表明,Spiking-Diffusion 优于现有的基于 SNN 的生成模型。我们在上述数据集上分别实现了 37.50、91.98、59.23、67.41 和 120.5 的 FID,与最先进的工作相比,FID 减少了 58.60%、18.75%、64.51%、29.75% 和 44.88%。我们的代码将在 https://github.com/Arktis2022/Spiking-Diffusion 上提供。
我们提出了 MindEye,一种新颖的 fMRI 到图像方法,用于从大脑活动中检索和重建所看到的图像。我们的模型包含两个并行子模块,专门用于检索(使用对比学习)和重建(使用扩散先验)。MindEye 可以将 fMRI 大脑活动映射到任何高维多模态潜在空间,如 CLIP 图像空间,从而能够使用接受来自该潜在空间的嵌入的生成模型进行图像重建。我们使用定性的并排比较和定量评估,将我们的方法与其他现有方法进行了全面比较,并表明 MindEye 在重建和检索任务中都达到了最先进的性能。特别是,即使在高度相似的候选图像中,MindEye 也可以检索出精确的原始图像,这表明它的大脑嵌入保留了细粒度的图像特定信息。这使我们能够准确地从 LAION-5B 等大型数据库中检索图像。我们通过消融证明,Mind-Eye 的性能优于以前的方法,这得益于专门用于检索和重建的子模块、改进的训练技术以及具有更多数量级参数的训练模型。此外,我们还表明,通过使用 img2img,MindEye 可以更好地保留重建中的低级图像特征,并使用单独的自动编码器进行输出。所有代码均可在 GitHub 上找到。
摘要 — 得益于具有强大表示的深度神经网络的最新进展,视觉神经编码和解码的最新研究取得了重大进展。然而,仍然存在两个挑战。首先,当前基于深度生成模型的解码算法总是与信息丢失作斗争,这可能会导致模糊重建。其次,大多数研究分别对神经编码和解码过程进行建模,忽略了这两个任务之间固有的对偶关系。在本文中,我们提出了一种新颖的神经编码和解码方法,该方法采用基于两阶段流的可逆生成模型来解决上述问题。首先,训练卷积自动编码器来连接刺激空间和特征空间。其次,训练对抗性跨模态正则化流以建立图像特征和神经信号之间的双射变换,并对潜在空间施加局部和全局约束以呈现跨模态对齐。该方法最终通过基于流的生成器和自动编码器的组合实现视觉刺激和神经响应的双向生成。基于流的可逆生成模型可以最大限度地减少信息损失,并将神经编码和解码统一到单一框架中。对包含脉冲信号的不同神经信号和功能磁共振成像的实验结果表明,我们的模型在比较模型中实现了最佳的综合性能。
摘要发达国家最重要的优先事项之一是使用机器决策而不是人类。需要该领域的领域之一就是健康。为此,确定人们的肥胖和瘦弱在研究和研究社会的健康状况和采用卫生系统政策方面非常有用。人物作为研究数据库的图像是从几个不同的环境中编写的,在这些环境中,相机与人之间的距离在所有人之间都是相同的。然后,使用背景扣除去除图像的背景。包括图像形态特征的图像特征是从图像中提取的,并分为两类以执行分类操作。人们分为三类:脂肪,中和薄。使用高斯低通滤波器方法将图像液体使用,并使用两种盐和胡椒噪声和高斯噪声进行过滤的不同频率。n正常图像,最高精度与精度为97.1%的SVM方法有关,最低的方法分别与MLP,贝叶斯和KNN算法有关。本文的结果表明,除了能够从肥胖和瘦弱方面对社会人民进行分类之外,还比到目前为止提出的大多数方法都具有更高的准确性。根据这项研究的解决方案和结果,通过增加人们的形象,除了提高准确性外,它将达到更实际的水平。关键字关键字:分类,图像处理,机器学习,SVM,薄,脂肪
引言大数据时代的到来为机器学习带来了巨大的成功。数据的丰富和各种机器学习技术的发展共同导致了新的人工智能模型和应用的爆炸式增长。然而,机器学习的大部分仍然是不透明的“黑匣子”。人工智能系统的有效性,特别是在疾病诊断、股票交易和自动驾驶汽车等关键应用中,将受到机器无法向人类解释其决策和结论的限制。因此,构建更可解释的人工智能非常重要,这样人类才能理解、信任和有效地管理新兴的人工智能系统(Gunning 2016)。整合(Gunning 2016)和(Biran and Cotton 2017)中提出的分类法,现有的可解释人工智能(XAI)研究可分为三大类方法:(1)基于特征的解释,(2)模型近似和(3)可解释模型。对于基于特征的解释,通常会给出一个不可解释的复杂模型及其预测。这种方法侧重于通过提取和识别对预测结果有显著影响的特征来为预测生成理由。Martens 等人(2008)通过提取可以基于一小部分特征产生与 SVM 类似结果的规则来解释 SVM 分类器的结果。Landecker 等人(2013)通过研究不同组件对分类结果的重要程度来解释分层网络的分类结果。Hendricks 等人(2016)使用 LSTM 基于突出的图像特征和类别判别特征为 CNN 的图像分类结果生成解释。
磁共振成像 (MRI) 在识别潜在组织病理方面存在局限性,这与多发性硬化症、中风或脑肿瘤等神经系统疾病有关。然而,目前没有将 MRI 特征与组织病理学相关联的标准化方法。因此,我们旨在开发和验证一种可以促进脑 MRI 特征与相应组织病理学相关联的工具。为此,我们设计了 Brainbox,这是一种防水且与 MRI 兼容的 3D 打印容器,具有集成的 3D 坐标系。我们使用 Brainbox 对八个人类大脑(新鲜的和福尔马林固定的)进行死后离体 MRI,并使用内置的 3D 坐标系将局部成像特征与组织病理学相关联。凭借其内置的 3D 坐标系,Brainbox 可以将 MRI 特征与相应的组织基质相关联。 Brainbox 用于将不同的 MRI 图像特征与相应的组织基质关联起来,包括正常的解剖结构,例如海马或血管周围空间,以及腔隙性中风。固定后脑体积减少了 7%(P = 0.01)。Brainbox 能够在扫描前对标本进行脱气,减少磁化伪影并最大限度地减少扫描过程中的体积运动。总之,我们的原理验证实验证明了 Brainbox 的可用性,它有助于提高 MRI 的特异性以及标准化死后离体人脑 MRI 与组织病理学之间的相关性。我们的机构可应要求提供 Brainbox。