摘要。运动图像分类是一项具有挑战性的任务,涉及多种类型的运动,在功能识别和次优检测结果方面遇到困难。这项研究采用了四个验证的模型,即残留网络50(Resnet-50),EfficityNet B7,密集连接的卷积网络121(Densenet-121),您只能查看一次版本8(Yolov8),以解决对100个不同运动图像类别进行分类的问题。数据集包含12200张体育图像,这是这项研究的强大实验基础。通过比较他们的表现,可以发现Resnet-50在训练集中表现出出色的性能,在验证集中的准确度为90.80%,88.75%的精度为88.75%。有效网络B7模型的训练精度为37.45%,推理的精度为62.42%。令人印象深刻的性能可能是由于其在处理特定的运动图像分类任务时的表示功能有限。densenet-121在培训中获得了71.791%的准确性,验证集获得了86.211%。与EfficityNet B7相比,其性能更好,这表明密集的连通性雅更适合提取图像特征。此外,Yolov8n模型在训练集的平均准确度中提供了出色的性能,验证集的平均精度为96.60%。这些结果展示了在运动图像分类和检测中yolov8n的圆润性能。总而言之,这项研究通过比较运动图像分类中不同算法的性能来解决解决复杂图像分类问题的宝贵见解。了解这些各种算法的优势和缺点对于更深入地理解图像分类任务和指导未来的研究努力至关重要。
摘要 - 脑肿瘤需要评估以确保及时诊断和有效的患者治疗。形态学因素,例如大小,位置,纹理和可变外观 - 肿瘤检查。医学成像提出了挑战,包括噪声和不完整的图像。本研究文章介绍了一种处理磁共振成像(MRI)数据的方法,包括用于图像分类和DeNoing的技术。有效使用MRI图像使医疗专业人员可以检测包括肿瘤在内的脑部疾病。这项研究旨在通过分析提供的MRI数据来对健康的脑组织和脑肿瘤进行分类。与诸如计算机断层扫描(CT)之类的替代方法不同,MRI技术提供了内部解剖组件的更详细表示,是研究与脑肿瘤相关的数据的合适选择。MRI图片首先使用各向异性扩散滤波器进行脱氧技术。用于模型创建的数据集是公共访问且经过验证的脑肿瘤分类(MRI)数据库,其中包括3,264次大脑MRI扫描。SMOTE用于数据增强和数据集平衡。卷积神经网络(CNN),例如RESNET152V2,VGG,VIT和EFIDENTEN,用于分类程序。有效网络的精度为98%,是记录最高的。索引术语 - MRI,EfficityNet,脑肿瘤,Smote,CNN
脑肿瘤死亡率高,治疗选择有限,是全球重大健康问题。这些肿瘤是由脑内细胞异常生长引起的,大小和形状各异,因此,对于医疗专业人员来说,通过磁共振成像 (MRI) 扫描手动检测它们是一项主观且具有挑战性的任务,因此需要自动化解决方案。本研究探讨了深度学习(特别是 DenseNet 架构)自动化脑肿瘤分类的潜力,旨在提高临床应用的准确性和通用性。我们利用了 Figshare 脑肿瘤数据集,该数据集包含 233 名患者的 3,064 张 T1 加权增强 MRI 图像,这些患者患有三种常见肿瘤类型:脑膜瘤、神经胶质瘤和垂体瘤。使用来自 ImageNet 的迁移学习评估了四种预训练的深度学习模型——ResNet、EfficientNet、MobileNet 和 DenseNet。DenseNet 实现了最高的测试集准确率 96%,优于 ResNet(91%)、EfficientNet(91%)和 MobileNet(93%)。因此,我们专注于提高 DenseNet 的性能,同时将其视为基础模型。为了增强基础 DenseNet 模型的通用性,我们实施了一种微调方法,该方法采用了正则化技术,包括数据增强、dropout、批量归一化和全局平均池化,并结合了超参数优化。这种增强的 DenseNet 模型实现了 97.1% 的准确率。我们的研究结果证明了 DenseNet 结合迁移学习和微调对脑肿瘤分类的有效性,凸显了其在临床环境中提高诊断准确性和可靠性的潜力。
言语障碍 (SD) 的分类对于治疗患有言语障碍 (SI) 的儿童至关重要。自动 SD 分类可以帮助言语治疗师为农村地区的 SI 儿童提供服务。检测 SD 的自动化技术可以客观评估语音属性,包括发音、流利度和韵律。临床检查和定量评估可以深入了解患者的说话能力和局限性。现有的用于 SD 检测的深度学习 (DL) 模型通常缺乏对不同人群和语音变化的泛化,导致在应用于具有不同语言背景或方言的个体时性能不佳。本研究介绍了一种基于 DL 的模型,用于使用语音样本对正常和异常语音进行分类。为了克服过度拟合和偏差,作者构建了具有 MobileNet V3 和 EfficientNet B7 模型权重的卷积神经网络模型,用于特征提取 (FE)。为了提高性能,他们将挤压和激励块与基于 MobileNet V3 的 FE 模型集成在一起。同样,使用结构修剪技术改进了基于 EfficientNet B7-mod el 的 FE。增强型 CatBoost 模型使用提取的特征区分正常和异常语音。实验分析使用包含 4620 个健康儿童话语和 2178 个 SI 儿童话语的公共数据集进行。比较研究揭示了所提出的 SD 分类模型的卓越性能。该模型的表现优于当前的 SD 分类模型。它可以用于临床环境以支持语言治疗师。使用多样化语音样本进行大量训练可以提高所提模型的通用性。
摘要:沥青路面裂缝构成了表面材料的普遍和严重的困扰,在选择适当的维修策略之前,必须对劣化的类型进行分类以识别根本原因。有效的检测和分类最大程度地减少伴随成本,并同时增加路面服务寿命。这项研究采用了使用Crack500数据集和GitHub提供的其他数据集可用的辅助数据,采用卷积神经网络(CNN)进行沥青路面裂纹检测。此数据集具有四种类型的裂纹。:水平,垂直,对角线和鳄鱼。还对ImageNet训练的五个预训练的CNN模型也接受了培训和评估以进行转移学习。紧急结果表明,有效网络B3是最可靠的模型,并获得了94%F1_SCORE和94%精度的结果。通过对ImageNet预先训练的权重进行转移学习和对CNN进行微调,通过在同一数据集上进行了培训。结果表明,修改模型以96%的F1_SCORE和96%的精度显示出更好的分类性能。通过将ImageNet重量的有效传输和对有效网络B3架构的顶层进行微调以满足分类要求的有效转移,可以实现这种高分类的精度。最后,混乱矩阵表明,某些类别的裂纹在概括方面的性能要比其他裂纹更好。因此,需要进一步的进一步进步,以微调的预训练模型。这项研究表明,高分类结果是由于使用ImageNet权重的成功转移学习和微调而产生的。
检测脑癌的医学图像处理方法仍然主要是手动完成,准确度低且时间长。此外,这项任务只有拥有高水平医疗能力的专业人员才能完成,而与需要救治的大量患者相比,专家的数量显然是有限的。随着人工智能的增长以及计算机在处理速度和存储容量方面的飞速发展,可以协助医生对头部肿瘤的存在进行分类。本研究使用了 EfficientNet 架构的四种变体,旨在针对各种 MRI 成像数据训练模型。 B1版本模型被证明是本次调查中最好的,从B0到B3版本(4个版本),准确率高达98%,精确率高达99%,召回率高达95%,f1分数高达97%。这些结果非常好,但并不排除使用不同设计形式进行进一步的研究。
摘要 — 脑肿瘤是最具侵袭性的肿瘤,如果在晚期才诊断出来,则会导致预期寿命缩短。人工识别脑肿瘤非常繁琐,而且容易出错。误诊会导致错误治疗,从而降低患者的生存机会。医学共振成像 (MRI) 是诊断脑肿瘤及其类型的常规方法。本文试图从诊断过程中消除手动过程,而使用机器学习来代替。我们提出使用预训练的卷积神经网络 (CNN) 来诊断和分类脑肿瘤。使用一类非肿瘤 MRI 图像对三种类型的肿瘤进行分类。已使用的网络是 ResNet50、EfficientNetB1、EfficientNetB7、EfficientNetV2B1。EfficientNet 由于其可扩展性而显示出有希望的结果。EfficientNetB1 显示出最佳结果,训练和验证准确率分别为 87.67% 和 89.55%。索引词——脑肿瘤、诊断、分类、预训练 CNN、卷积神经网络
摘要 - 这篇文章介绍了一种新颖的图像到语音生成方法,旨在使用深度学习技术将图像转换为文本字幕以及尼泊尔语言的口头描述。通过利用计算机视觉和自然语言处理,该系统分析图像,外观功能,生成人类可读字幕并产生可理解的语音输出。实验利用了图像字幕生成的最先进的变压器架构,并由Resnet和ExcilityNet作为特征提取器补充。BLEU评分用作生成字幕的评估度量。BLEU-1,BLEU-2,BLEU-3和BLEU-4 N-gram所获得的BLEU得分分别为0.4852、0.2952、0.181和0.113。预估计的Hifigan(Vocoder)和Tacotorn2用于文本进行语音合成。所提出的方法有助于尼泊尔语言AI应用的未置换域,旨在提高对尼泊尔语人群的可访问性和技术包容性。
摘要:脑瘤是指脑内异常细胞的生长,其中一些细胞可能导致癌症。检测脑瘤的常用方法是磁共振成像 (MRI) 扫描。从 MRI 图像中可以识别出有关脑内异常组织生长的信息。在各种研究论文中,脑瘤的检测都是通过应用机器学习和深度学习算法来完成的。当将这些算法应用于 MRI 图像时,可以非常快速地预测脑瘤,更高的准确度有助于为患者提供治疗。这些预测还有助于放射科医生快速做出决策。在所提出的工作中,应用自定义卷积神经网络 (CNN) 来检测脑瘤的存在,并分析其性能。高效网络是 CNN 模型之一,具有高精度和低计算量。因此,本研究建议使用高效网络架构对神经胶质瘤、脑膜瘤和垂体脑瘤的类型进行分类。高效网络有八个类别级别,从 EfficientNet-B0 到 EfficientNet-B7。本研究在 EfficientNet-B3 中获得了最佳结果,准确率达到 97.34%。索引词 - 图像分类、脑肿瘤、EfficientNet。
Stemansy旨在检测数字媒体中的隐藏消息,在信息安全领域提出重大挑战。本文介绍了一种对抗性的切解系统,该系统利用对抗性训练和有效的有效网络的功能提取功能。我们利用有效网络从图像中提取可靠的特征,随后由密集的神经网络对其进行分类,以区分隐志和非稳定摄影含量。为了增强系统对对抗性攻击的弹性,我们实施了一个自定义的对抗训练环,该训练循环使用快速梯度符号方法(FGSM)生成对抗性示例,并将这些示例集成到培训过程中。我们的结果表明,所提出的系统不仅可以在检测隐志含量方面具有很高的准确性,而且还保持了对抗性扰动的鲁棒性。利用最先进的深度学习体系结构和对抗性训练的双重方法为稳固性领域提供了重大进步,从而确保了对数字图像中隐藏信息的更可靠检测。