摘要:我们提出了一种方法,将其转换为2D蓝图转换为3D模型从原始单视图像中的可变形对象类别,完全没有外部监督。我们的方法利用了一个自动编码器框架,该框架将每个输入图像分解为四个基本组件:深度,颜色校正,观点和照明。没有明确标签就可以实现此分解。我们利用转换对象外观的事实,基础结构通常保持对称,可用于指导分离过程。要处理可能表现出部分对称性的对象,我们引入了一个学习的对称概率图,该图被整合到模型中,并与其他组件一起端到端学习。我们的方法能够从单视图像中准确恢复各种可变形物体的3D形状,例如人的脸,猫的脸和汽车,而无需依赖任何监督或先前的形状模型。在实验评估中,我们证明了我们的无监督方法显着优于依赖2D图像对应关系的有监督方法,从而在3D形状重建方面达到了卓越的准确性。这项工作为无监督的3D对象学习提供了有希望的步骤,并在计算机视觉和图形中使用了潜在的应用。关键字:OPENCV,深度处理,MIDAS,图像处理,Pytorch。
临床数据汇总和计算资源的演变的抽象背景,基于人工智能的方法已成为促进临床诊断的可能性。对于先天性心脏病(CHD)检测,最近基于深度学习的方法倾向于以很少的观点甚至单一的视图来实现分类。由于CHD的复杂性,深度学习模型的输入图像应涵盖心脏的尽可能多的解剖结构,以增强算法的准确性和鲁棒性。在本文中,我们首先提出了一种基于七种冠心病分类视图的深度学习方法,然后用临床数据对其进行验证,其结果表明了我们方法的竞争力。方法总共选择了1411名儿童医院医院医学院的儿童,并获得了超声心动图视频。然后,从每个视频中选择了七个标准视图,这些视图用作深度学习模型的输入,以在训练,验证和测试后获得最终结果。导致测试集,当输入合理类型的图像类型时,曲线下的面积(AUC)值可能达到0.91,精度可能达到92.3%。在实验过程中,剪切转化被用作干扰我们方法的感染抗性。只要输入适当的数据,即使应用人工干扰,上述实验结果也不会显然波动。结论这些结果表明,基于七个标准超声心动图视图的深度学习模型可以有效地检测儿童中的冠心病,并且这种方法在实际应用中具有相当大的价值。
基于深度学习算法的计算机辅助诊断系统已显示出糖尿病性视网膜病快速诊断(DR)的潜在应用。由于变压器的出色表现而不是自然图像上的卷积神经网络(CNN),因此我们尝试开发一种新模型,以使用变压器使用有限数量的大型视网膜图像来对引用的DR进行分类。在本研究中应用了带有蒙版自动编码器(MAE)的视觉变压器(VIT),以提高参考DR的分类性能。我们收集了超过224×224的100,000张公共底面的视网膜图像,然后使用MAE在这些视网膜图像上进行了预训练的VIT。将预训练的VIT应用于对引用的DR进行分类,还将性能与使用ImageNet的VIT预先训练的性能进行了比较。通过使用MAE进行超过100,000个视网膜图像预先培训,模型分类性能的改善优于预先训练的Ima-Genet。本模型的精度,曲线下的面积,最高灵敏度和最高特异性分别为93.42%,0.9853、0.973和0.9539。本研究表明,MAE可以为输入图像提供更大的灵活性,并大大减少所需图像的数量。同时,这项研究中的预处理数据集量表比ImageNet小得多,并且不需要ImageNet的预训练权重。
在本文中,我们提出了一种用于边缘系统的新设备类感知的修剪方法,即OCAP。背后的动机是,深度神经网络(DNN)模型通常经过大型数据集训练,以便他们可以学习更多的多样性功能并被概括以准确预测众多类别。一些作品表明某些功能(频道)仅与某些类有关。和边缘系统通常在系统检测到的特定环境中实现。结果,为特定边缘环境实施一般培训模型会导致不必要的冗余。同时,将一些数据和模型转移到云中以进行个性化会导致隐私问题。因此,我们可能有一种在设备上意识到的修剪方法来删除与类无关紧要的通道,而边缘系统主要观察到,从而减少了模型的浮点操作(拖放),记忆足迹,潜伏期,潜伏期,能源效率,提高能量效率,并提高了相对较高的类别的准确性,并在同时保护了SITUD DATA DAPAIN PLISTERS PLASSICS。OCAP提出了一种基于输入图像的中间激活的新型类感知的修剪方法,以识别类 - 近距离的通道。此外,我们提出了一种基于KL差异的方法,以选择有效调整修剪模型的多样性和代表性数据。实验结果显示了OCAP的有效性和效率。与最先进的类感知的修剪方法相比,OCAP具有更好的准确性和更高的压缩比。代码可在https://github.com/mzd22222/ocap上获得。此外,我们在Nvidia Jetson Nano,Nvidia Jetson TX2和Nvidia Jetson Agx Xavier上评估了OCAP,在效率方面,实验结果证明了OCAP在边缘系统上的适用性。
摘要 - 图像的细分在医疗,军事,监视等领域都有广泛的应用。这项工作段用于检测大脑中肿瘤的医学共振图像,其中工作中的三个部分都在图像中识别出三个部分。首先是头骨,第二是大脑,第三是肿瘤。介绍的论文包括以无监督的方式对图像分割的描述,其中建议的模型在没有任何训练的情况下确定图像的所有段。在这里,Wiener Filter通过从图像矩阵中删除不需要的信息来预处理输入图像。过滤的图像然后以智能水滴(IWD)遗传算法传递,用于查找图像段的代表性像素值集。IWD算法中的图形水滴运动具有代表性像素值设置的选择精度。 实验是在脑肿瘤的实际数据集中进行的,检测是通过参考地面真相图像来完成的。 建议的模型评估了平均精度值0.98和平均准确度为96%。 因此,当将结果与现有方法进行比较时,就可以获得建议的分割工作增加了分割评估参数值。IWD算法中的图形水滴运动具有代表性像素值设置的选择精度。实验是在脑肿瘤的实际数据集中进行的,检测是通过参考地面真相图像来完成的。建议的模型评估了平均精度值0.98和平均准确度为96%。因此,当将结果与现有方法进行比较时,就可以获得建议的分割工作增加了分割评估参数值。
启用基于MR的治疗计划需要从MRI几何形状中准确的CT样数据生成[7,8]。传统上可以通过基于ATLA的方法[9,10]来实现,该方法最初将MRI体素分割为不同的组织区域,然后将预定义的HU值分配给每个区域[10]。基于地图集的方法[9]涉及将Atlas-MRIS注册到新的MR图像中,并使用位移矢量场(DVF)翘曲Atlas CT,这在很大程度上取决于可变形注册结果的准确性[11]。在人工智能的新时代,深度学习(DL)已成为计算机视觉和模式识别的主要方法[12]。基于深度学习的合成CT生成也已成为一个流行的研究主题[13,14]。通过利用其出色的能力从输入图像中提取信息性特征,深度神经网络在基于MR的CT合成任务中取得了显着的结果[7]。已经提出了各种网络体系结构,以学习从MR强度到CT Hounsfield单位[15-21]的体素映射,并且还探索了合成CT掺入质子治疗[19-25]或碳离子治疗[26]的工作流程中。由于大尺寸的全分辨率CTS,通常将整个3D图像馈入单个神经网络通常是不可行的。因此,已经采用了不同的策略来通过重叠或非重叠的2D贴片,2D切片,2.5D切片或3D贴片[27]进行分配,然后由网络单独转换,然后合并以实现最终估计。
摘要 利用 MRI 图像进行脑肿瘤分割对于疾病诊断、监测和治疗计划非常重要。到目前为止,已经为此开发了许多编码器-解码器架构,其中 U-Net 的使用最为广泛。然而,这些架构需要大量参数来训练,并且存在语义差距。一些工作试图制作一个轻量级模型并进行通道修剪,但这会产生较小的感受野,从而影响准确性。为了克服上述问题,作者提出了一种基于注意机制的多尺度轻量级模型 AML-Net,用于医疗物联网。该模型由三个小型编码器-解码器架构组成,它们使用不同尺度的输入图像以及先前学习的特征进行训练以减少损失。此外,作者设计了一个注意力模块来取代传统的跳过连接。对于注意力模块,进行了六个不同的实验,其中具有空间注意力的扩张卷积表现良好。这个注意力模块有三个扩张卷积,它们形成了一个相对较大的感受野,然后是空间注意力,以从编码器低级特征中提取全局上下文。然后将这些精细特征与解码器同一层的高级特征相结合。作者在 Cancer Genome Atlas 提供的低级别胶质瘤数据集上进行实验,该数据集至少具有液体衰减反转恢复模态。与 Z-Net、U-Net、Double U-Net、BCDU-Net 和 CU-Net 相比,所提出的模型的参数分别少 1/43.4、1/30.3、1/28.5、1/20.2 和 1/16.7。此外,作者的模型给出的结果为 IoU = 0.834、F 1-score = 0.909 和灵敏度 = 0.939,大于 U-Net、CU-Net、RCA-IUnet 和 PMED-Net。
摘要 在胸部 X 光 (CXR) 诊断领域,现有研究通常仅侧重于确定放射科医生的注视点,通常是通过检测、分割或分类等任务。然而,这些方法通常被设计为黑盒模型,缺乏可解释性。在本文中,我们介绍了可解释人工智能 (I-AI),这是一种新颖的统一可控可解释流程,用于解码放射科医生在 CXR 诊断中的高度关注度。我们的 I-AI 解决了三个关键问题:放射科医生注视的位置、他们在特定区域关注的时间以及他们诊断出的发现。通过捕捉放射科医生凝视的强度,我们提供了一个统一的解决方案,可深入了解放射学解释背后的认知过程。与当前依赖黑盒机器学习模型的方法不同,这些方法在诊断过程中很容易从整个输入图像中提取错误信息,而我们通过有效地屏蔽不相关的信息来解决这个问题。我们提出的 I-AI 利用视觉语言模型,可以精确控制解释过程,同时确保排除不相关的特征。为了训练我们的 I-AI 模型,我们利用眼球注视数据集来提取解剖注视信息并生成地面真实热图。通过大量实验,我们证明了我们方法的有效性。我们展示了旨在模仿放射科医生注意力的注意力热图,它编码了充分和相关的信息,仅使用 CXR 的一部分即可实现准确的分类任务。代码、检查点和数据位于 https://github.com/UARK-AICV/IAI。1. 简介
摘要 - 后门对机器学习构成了严重威胁,因为它们会损害安全系统的完整性,例如自动驾驶汽车。虽然已经提出了不同的防御来解决这一威胁,但他们都依靠这样的假设:硬件加速器执行学习模型是信任的。本文挑战了这一假设,并研究了完全存在于这样的加速器中的后门攻击。在硬件之外,学习模型和软件都没有被操纵,以使当前的防御能力失败。作为硬件加速器上的内存有限,我们使用的最小后门仅通过几个模型参数偏离原始模型。为了安装后门,我们开发了一个硬件特洛伊木马,该木马会处于休眠状态,直到在现场部署后对其进行编程。可以使用最小的后门来配置特洛伊木马,并仅在处理目标模型时执行参数替换。我们通过将硬件特洛伊木马植入商用机器学习加速器中,并用最小的后门来证明攻击的可行性,以使其对交通符号识别系统进行编程。后门仅影响30个模型参数(0.069%),后门触发器覆盖了输入图像的6.25%,但是一旦输入包含后门触发器,它就可以可靠地操纵识别。我们的攻击仅将加速器的电路大小扩大了0.24%,并且不会增加运行时,几乎不可能进行检测。鉴于分布式硬件制造过程,我们的工作指出了机器学习中的新威胁,该威胁目前避免了安全机制。索引术语 - 硬件木马,机器学习后门。
当前,机器学习算法正在以不断升级的方式被实施,以对某些神经退行性疾病进行分类和/或预测其发病;包括阿尔茨海默病 (AD);这可以归因于数据丰富和计算机功能强大的事实。这项工作的目标是通过浅层架构和处理方面的低成本网络,为健康对照 (HC) 提供针对 AD 和轻度认知障碍 (MCI) 的稳健分类系统。在本研究中,所包含的数据集是从阿尔茨海默病神经成像计划 (ADNI) 下载的。实施的分类方法是卷积神经网络 (CNN),其中扩散图和灰质 (GM) 体积是输入图像。对于 HC、MCI 和 AD,包括的扫描次数分别为 185、106 和 115。采用十倍交叉验证方案,堆叠平均扩散率 (MD) 和 GM 体积的 AUC 分别为 0.94 和 0.84,准确度分别为 93.5% 和 79.6%,灵敏度分别为 92.5% 和 62.7%,特异性分别为 93.9% 和 89%,分别用于 AD/HC 和 MCI/HC 分类。这项工作阐明了结合不同成像模式数据的影响;即结构磁共振成像 (MRI) 和扩散张量成像 (DTI),其中采用深度学习进行分类。据我们所知,这是第一项评估每个受试者进行多次扫描的影响的研究,并提出适当的操作以确认系统的稳健性。结果在现有文献中具有竞争力,为改进可以减缓或预防 AD 进展的药物铺平了道路。