摘要:无人机因其大小和工作量各不相同而广泛用于各种应用,例如监视、导航、在自主农业系统中喷洒农药、各种军事服务等。然而,携带有害物体的恶意无人机经常被用来侵入禁区并袭击关键公共场所。因此,及时发现恶意无人机可以防止潜在的危害。本文提出了一种基于视觉变换器 (ViT) 的框架来区分无人机和恶意无人机。在提出的基于 ViT 的模型中,无人机图像被分割成固定大小的块;然后,应用线性嵌入和位置嵌入,最终将得到的向量序列输入到标准 ViT 编码器。在分类过程中,使用与序列相关的额外可学习分类标记。将提出的框架与几个手工制作的深度卷积神经网络 (D-CNN) 进行了比较,结果表明,提出的模型的准确率达到了 98.3%,优于各种手工制作的和 D-CNN 模型。此外,通过将所提出的模型与现有的最先进的无人机检测方法进行比较,证明了所提出的模型的优越性。
摘要 - 情绪是人类言语交流中的重要因素,因此在人类机器人相互作用(HRI)期间了解个体的影响很重要。本文研究了视觉变压器模型的应用,即VIT(视觉变压器)和BEIT(来自图像变压器预训练的双向编码器代表)管道中的言语情感识别(SER)。重点是通过在基准数据集上填充这些模型并利用集合方法来概括为单个语音特征的SER模型。为此,我们从与NAO社会机器人进行伪自然对话的几个人类受试者中收集了音频数据。然后,我们对基于VIT和BEIT的模型进行了研究,并在参与者的看不见的语音样本上测试了这些模型,以便从语音中辨认出四种主要情绪:中性,快乐,悲伤和愤怒。结果表明,基准数据集上的填充视觉变压器,然后使用这些已经精心调整的模型或结合VIT/BEIT模型会导致比调节的Vanilla-Vits或BEITS更高的分类精度或BEIT。
本文介绍了一种利用深度学习模型(特别是视觉变换器 (ViT) 模型)进行情绪分类的新方法,用于分析脑电图 (EEG) 信号。我们的研究实施了一种双特征提取方法,利用功率谱密度和差分熵来分析 SEED IV 数据集。这种方法对四种不同的情绪状态进行了详细分类。最初设计用于图像处理的 ViT 模型已成功应用于 EEG 信号分析。它表现出色,测试准确率达到 99.02%,方差很小。值得注意的是,它在这方面的表现优于 GRU、LSTM 和 CNN 等传统模型。我们的研究结果表明,ViT 模型在准确识别 EEG 数据中存在的复杂模式方面具有很高的有效性。具体而言,该模型的准确率和召回率超过 98%,而 F1 分数估计约为 98.9%。该研究的结果不仅证明了基于变压器的模型在分析认知状态方面的有效性,而且还表明它们在改善人机交互系统方面具有巨大的潜力。
摘要:针对传统检测方法在IC外观缺陷检测中存在的识别率不高、识别速度慢的问题,提出一种IC外观缺陷检测算法IH-ViT。提出的模型利用CNN和ViT各自的优势,从局部和全局两个角度获取图像特征,最终将两种特征融合进行决策判断缺陷类别,从而获得更高的IC缺陷识别准确率。针对IC外观缺陷主要体现在细节上的差异,传统算法难以识别的问题,对传统ViT进行了改进,在batch内部进行了额外的卷积操作。针对数据集来源多样导致的样本信息不平衡问题,采用双通道图像分割技术,进一步提高IC外观缺陷的识别准确率。最后经过测试,提出的混合IH-ViT模型取得了72.51%的准确率,比单独的ResNet50和ViT模型分别提高了2.8%和6.06%。所提算法可以快速准确地检测出IC外观缺陷状况,有效提高IC封测企业的生产效率。
• Final Grade: 98/110 • Graduationthesis: LATENTREPLAY-BASEDON-DEVICECONTINUALLEARN- ING USING TRANSFORMERS ON EDGE ULTRA-LOW-POWER IOT PLATFORMS - The thesis explored PULP deployment solutions for continual learn- ing (CL) methods applied on Visual Transformers (ViT) by extending the PULP TrainLib library to support ViT, and by experimenting with latent replay and associated CL methods on transformers.它是用Python和C编写的,它使用了Pytorch库。•课程工作:AI的体系结构和平台;图像处理和计算机视觉;自然语言处理;机器学习和深度学习;组合,决策和优化;乐趣 - aiinindustry; AI的语言和算法; AI的统计和数学方法。
基于机器学习的框架,以及深入学习的更具体的框架。这包括第一次使用高阶动态模式分解(HODMD)算法,以便在医学场中的数据增强和特征提取。第二阶段的重点是构建和训练视觉变压器(VIT),在相关文献中几乎没有探索。即使使用小数据集,VIT也适用于从头开始的有效培训。设计的神经网络分析来自超声心动图序列的图像,以预测心脏状态。获得的结果表明了所提出的系统的优越性和HODMD算法的效率,即使表现优于预认证的综合神经网络(CNN),这是迄今为止文献中选择的方法。
阿尔茨海默氏病(AD)是全球残疾的主要原因。早期检测对于预防进展和制定有效的治疗计划至关重要。这项研究旨在开发一种新颖的深度学习(DL)模型,即混合RVIT,以增强AD的检测。所提出的混合-RVIT模型将预训练的卷积神经网络(RESNET-50)与视觉变压器(VIT)集成在一起,以对AD的不同阶段进行分类。用于转移学习,促进电感偏差和特征提取的Resnet-50。同时,VIT处理图像贴片的序列通过自我发项机制捕获长距离关系,从而充当局部全球特征提取器。Hybrid-Rvit模型的训练精度为97%,测试精度为95%,表现优于先前的模型。这证明了其在从脑MRI数据中准确识别和分类广告阶段的潜在疗效。将Resnet-50和VIT结合的混合动力模型在AD检测中表现出卓越的性能,强调了其作为医学专业人员解释和分析脑MRI图像的宝贵工具的潜力。该模型可以显着改善AD的早期诊断和干预策略。
视觉变压器(VIT)在全球建模中脱颖而出,但由于其注意力机制的二次计算复杂性,在资源受限设备上面临部署挑战。为了解决这个问题,我们提出了语义意识的聚类视觉变压器(SAC-VIT),这是一种非著作范围,以提高VIT的计算效率。SAC-VIT分为两个阶段:早期出口(EE)和语义意识聚类(SAC)。在EE阶段,处理下采样的输入信息以提取全局语义信息并生成初始推理结果。如果这些结果不符合EE终止标准,则将这些信息聚集到目标和非目标令牌中。在SAC阶段,目标令牌被映射回原始图像,裁剪和嵌入。然后将这些目标令牌与从EE阶段重复使用的非目标令牌结合使用,并在每个集群中应用注意力机制。具有端到端优化的两阶段设计,可降低空间冗余,并实现计算效率,从而显着提高所有VIT性能。广泛的实验证明了SAC-VIT的功效,减少了DEIT的62%,并实现了1.98倍的吞吐量,而无需损害。
抽象的深度学习模型,例如卷积神经网络(CNN)和视觉变压器(VIT),在MRI图像上脑损伤的分类中已经实现了最先进的性能。但是,这种类型的图像的复杂性要求CNN使用具有更多参数的更深层体系结构,以有效地捕获其高维特征和微妙的变化。一方面,VIT提供了一种应对这一挑战的不同方法,但是它们需要更大的数据集和更多的计算成本。在另一侧,整体深度学习技术(例如装袋,堆叠和增强)可以通过组合多个CNN模型来帮助减轻这些限制。这项研究探讨了这些方法,并使用三种方法进行比较,以评估其准确性和效率:基于CNN的转移学习,基于VIT的转移学习和集成深度学习技术,例如基于XGBOOST,ADABOOST方法,袋装,堆叠和提高。在四个具有不同级别的复杂性和脑部病变类型水平的MRI图像数据集上进行的实验表明,与已经存在的方法相比,CNN与集合技术的组合为单个CNN和VITs提供了非常有竞争力的性能,并具有有趣的改进。
在多光谱卫星图像中填充多云的像素对于准确的数据分析和下游应用程序至关重要,尤其是对于需要时间分配数据的任务。为了解决此问题,我们将基础元素变压器(VIT)模型的性能与基线条件生成对抗网络(CGAN)模型进行了比较,以在多型卫星图像的时间序列中缺少价值插补。我们使用现实世界云面具随机掩盖了卫星图像的时间序列,并训练每个模型以重建缺失的像素。VIT模型是根据预处理的模型微调的,而CGAN则是从头开始训练的。使用定量评估指标,例如结构相似性指数和平均绝对误差以及定性的视觉分析,我们评估插补准确性和上下文保存。