摘要 - 传统的卷积神经网络(CNN)通常在捕获各种数据集中的复杂空间关系和细微的模式方面遇到困难。为了克服这些限制,这项工作先驱,使视觉变压器(VIT)模型的应用在计算机视觉领域引起了显着关注,因为它们能够通过自我意见机制在图像中捕获图像中的长期依赖性的能力。然而,培训大量参数的大规模VIT模型会带来计算挑战。在本文中,我们提出了一种优化的方法,用于培训VIT模型,该模型利用图形处理单元(GPU)的并行处理功能,并使用多线程优化了计算工作负载分布。在CIFAR-10数据集上对所提出的模型进行了训练和测试,并在100个时期后达到了99.92%的出色精度。与现有方法相比,实验结果揭示了我们方法在优化训练效率方面的有效性。这强调了VIT模型的出色性能及其革新图像分类任务的潜力。索引术语 - CIFAR-10数据集,卷积神经网络(CNN),GPU,图像分类,多线程,视觉变压器(VIT),注意机制
主要关键词