摘要 - 传统的卷积神经网络(CNN)通常在捕获各种数据集中的复杂空间关系和细微的模式方面遇到困难。为了克服这些限制,这项工作先驱,使视觉变压器(VIT)模型的应用在计算机视觉领域引起了显着关注,因为它们能够通过自我意见机制在图像中捕获图像中的长期依赖性的能力。然而,培训大量参数的大规模VIT模型会带来计算挑战。在本文中,我们提出了一种优化的方法,用于培训VIT模型,该模型利用图形处理单元(GPU)的并行处理功能,并使用多线程优化了计算工作负载分布。在CIFAR-10数据集上对所提出的模型进行了训练和测试,并在100个时期后达到了99.92%的出色精度。与现有方法相比,实验结果揭示了我们方法在优化训练效率方面的有效性。这强调了VIT模型的出色性能及其革新图像分类任务的潜力。索引术语 - CIFAR-10数据集,卷积神经网络(CNN),GPU,图像分类,多线程,视觉变压器(VIT),注意机制
图像分割是一项将数字图像的所有像素分成不同类别的任务。与对整个图像进行分类的图像分类不同,图像分割对图像的每个像素进行分类。该模型以固定大小的图像作为输入,并返回图像每个像素的置信度分数向量。得分最高的标签用作像素的标签。整个图像以多色马赛克的形式返回,其中每种颜色代表一种对象类型。
生成模型生成摄影图像的非凡能力加剧了人们对虚假信息传播的担忧,从而导致对能够区分人工智能生成的假图像和真实图像的检测器的需求。然而,缺乏包含来自最先进图像生成器的图像的大型数据集,这对此类检测器的开发构成了障碍。在本文中,我们介绍了 GenImage 数据集,它具有以下优点:1)图像丰富,包括超过一百万对人工智能生成的假图像和收集的真实图像。2)图像内容丰富,涵盖广泛的图像类别。3)最先进的生成器,使用先进的扩散模型和 GAN 合成图像。上述优势使在 GenImage 上训练的检测器经过彻底的评估,并表现出对各种图像的强大适用性。我们对数据集进行了全面分析,并提出了两个任务来评估检测方法在模拟真实场景中的表现。跨生成器图像分类任务衡量了在一个生成器上训练的检测器在其他生成器上测试时的性能。降级图像分类任务评估了检测器处理降级图像(例如低分辨率、模糊和压缩图像)的能力。借助 GenImage 数据集,与现行方法相比,研究人员可以有效地加快开发和评估更优秀的 AI 生成图像检测器。
解释AI的决定已成为一个重要的研究主题。使用深度学习(Krizhevsky等,2012; Lecun等,2015)在图像分类方面取得了很大进展,对解释图像分类的结果产生了重大兴趣。尽管有许多可解释的AI(XAI)的信息,但本文首先着重于学习对图像进行分类。然后,我们讨论可解释AI的更广泛的信息。最近的会议包括有关可解释AI的教程和讲习班。XAI有几项好的调查(Chakraborty等人。,2017&došilović等,2018)。这不是其中之一。取而代之的是,在与放射学和眼科专家解决问题以及鸟类识别方面的问题之后,我们得出的结论是,现有的技术留出了很大的改进空间。该领域需要其他方案和方法,包括澄清XAI的目标,尤其是在用户,专家和图像分类方面。尽管Xai的一些最初目标是“向人类用户解释他们的决策和行动”(Gunning&Aha,2018),但最新的最新目前是以开发人员为中心的,而不是以用户为中心。解释图像分类的主要方法是将重要性得分分配给图像上的显着图或区域上的像素或区域,以形象化区域的重要性(红色,橙色,黄色…)。为创建热图开发的方法包括遮挡灵敏度(Zeiler&
深度学习模型由于其规模、结构和训练过程中固有的随机性而变得复杂。数据集的选择和归纳偏差也带来了额外的复杂性。为了解决这些可解释性挑战,Kim 等人 (2018) 引入了概念激活向量 (CAV),旨在从与人类一致的概念的角度理解深度模型的内部状态。这些概念对应于潜在空间中的方向,使用线性判别式进行识别。虽然该方法最初应用于图像分类,但后来被应用于其他领域,包括自然语言处理。在这项工作中,我们尝试将该方法应用于脑电图 (EEG) 数据,以解释 Kostas 等人的 BENDR (2021),这是一个大规模 Transformer 模型。这项工作的一个关键部分涉及定义解释概念并选择相关数据集来为潜在空间中的概念打下基础。我们重点关注脑电图概念形成的两种机制:使用外部标记的脑电图数据集和应用解剖学定义的概念。前一种方法是图像分类方法的直接概括,而后一种方法是新颖的,并且特定于脑电图。我们提供的证据表明,这两种概念形成方法都可以为深度脑电图模型学习到的表示提供有价值的见解。
a。机器学习(ML)范式b。神经网络,体系结构,激活功能,优化技术c。表示学习,嵌入,功能工程d。概率模型,贝叶斯网络,隐藏的马尔可夫模型(HMMS)e。推理和计划f。自然语言处理,令牌化,言论部分(POS)标记,命名实体识别(NER),Word2Vec g。计算机视觉,图像分类,对象检测,图像分割h。基础模型及其角色
近年来,人工智能 (AI) 在肿瘤学中的应用发展迅速,并取得了丰硕成果。这项工作旨在评估深度卷积神经网络 (CNN) 算法在口腔摄影图像中对口腔潜在恶性疾病 (OPMD) 和口腔鳞状细胞癌 (OSCC) 进行分类和检测的性能。将包含 980 张口腔摄影图像的数据集分为 365 张 OSCC 图像、315 张 OPMD 图像和 300 张非病理图像。使用 DenseNet-169、ResNet-101、SqueezeNet 和 Swin-S 创建多类图像分类模型。使用 faster R-CNN、YOLOv5、RetinaNet 和 CenterNet2 构建多类物体检测模型。最佳 CNN 模型 DenseNet-196 的多类图像分类的 AUC 在 OSCC 和 OPMD 上分别为 1.00 和 0.98。最佳多类 CNN 基础物体检测模型 Faster R-CNN 在 OSCC 和 OPMD 上的 AUC 分别为 0.88 和 0.64。相比之下,DenseNet-196 在 OSCC 和 OPMD 上的 AUC 分别为 1.00 和 0.98,获得了最佳多类图像分类性能。这些值与专家的表现一致,并且优于全科医生 (GP)。总之,基于 CNN 的模型具有在口腔摄影图像中识别 OSCC 和 OPMD 的潜力,有望成为协助全科医生早期发现口腔癌的诊断工具。
摘要 — 这是预接受版本,要阅读最终版本,请访问 IEEE Xplore 上的《IEEE 地球科学和遥感学报》。本文解决了自动检测人造结构尤其是非常高分辨率 (VHR) 合成孔径雷达 (SAR) 图像中的建筑物这一极具挑战性的问题。在这方面,本文有两大贡献:首先,它提出了一种新颖的通用工作流程,该工作流程首先将星载 TomoSAR 点云(通过使用称为 SAR 断层扫描 (TomoSAR) 的先进干涉技术处理 VHR SAR 图像堆栈生成)在辅助信息的帮助下(即使用公开可用的 2D 建筑物足迹或采用光学图像分类方案)分为建筑物和非建筑物,然后将提取的建筑物点反投影到 SAR 成像坐标上,以自动生成大规模基准标记(建筑物/非建筑物)SAR 数据集。其次,这些标记数据集(即建筑物掩码)已用于构建和训练最先进的深度全卷积神经网络,并附加条件随机场(表示为循环神经网络)来检测单个 VHR SAR 图像中的建筑物区域。这种级联结构已成功应用于计算机视觉和遥感领域,用于光学图像分类,但据我们所知,尚未应用于 SAR 图像。结果
摘要。近年来,人工智能 (AI) 在生物医学领域的发展迅速。然而,迫切需要一个准确、安全的肺炎检测和诊断系统。我们提出了一种用于 AI 支持的实时生物医学系统 (AIRBiS) 的协作学习算法的优化和实现,其中部署了卷积神经网络进行肺炎(即 COVID-19)图像分类。通过增强优化,联邦学习 (FL) 方法实现了 95.66% 的高准确率,优于传统学习方法的 94.08% 准确率。使用多个边缘设备还可以减少总体训练时间。