摘要:无人机因其大小和工作量各不相同而广泛用于各种应用,例如监视、导航、在自主农业系统中喷洒农药、各种军事服务等。然而,携带有害物体的恶意无人机经常被用来侵入禁区并袭击关键公共场所。因此,及时发现恶意无人机可以防止潜在的危害。本文提出了一种基于视觉变换器 (ViT) 的框架来区分无人机和恶意无人机。在提出的基于 ViT 的模型中,无人机图像被分割成固定大小的块;然后,应用线性嵌入和位置嵌入,最终将得到的向量序列输入到标准 ViT 编码器。在分类过程中,使用与序列相关的额外可学习分类标记。将提出的框架与几个手工制作的深度卷积神经网络 (D-CNN) 进行了比较,结果表明,提出的模型的准确率达到了 98.3%,优于各种手工制作的和 D-CNN 模型。此外,通过将所提出的模型与现有的最先进的无人机检测方法进行比较,证明了所提出的模型的优越性。
主要关键词