卷积神经网络(CNNS),是最重要的深度学习网络,用于构想者视觉,已进行了一系列的发展和改进,以进行与图像相关的任务,例如对象识别,图像分类,语义细分等。然而,在自然语言处理(NLP)领域,基于注意力的新网络变速器对机器翻译产生了深远的影响,随后导致了基于注意的计算机视觉模型的繁荣。具有关注的最新模型已经显示出对计算机视觉任务的良好性能。例如,与当前的卷积神经网络的表现相比,自我注意力学会在不同位置的细分或单词之间的关系。受视觉转移(VIT)的启发,我们提出了一个简单的新型变压器体系结构模型,称为Flexible Transformer,该模型继承了基于注意力的架构的属性,并且对于任意大小的输入而言是灵活的。除了自我注意事项外,VIT中的输入没有预处理,例如调整大小或裁剪,但在不改变它们的情况下保持完整,这可能导致信息失真或信息丢失。在本文中,我们想介绍一个满足这些要求的新颖而简单的体系结构。与艺术品相比,我们的模型流程输入具有任意图像大小的输入,而没有任何预处理和预处理成本。此外,实验的结果表明,尽管资源有限,该模型仍可以以很高的精度提供良好的结果。,即使灵活变压器的结果不如视觉变压器的结果准确,但它们显示了具有可变大小图像的图像分类任务中具有高性能的模型的潜力。研究的重要性为处理深度学习任务中的原始图像打开了可能性。基于原始输入,如果对拟议的模型进行了优化并在大型数据集上进行了进一步培训,则可以获得良好准确性的可靠结果。
Xu,Dejia等。“ Neurallift-360:将野外2D照片提升到具有360度视图的3D对象。”IEEE/CVF计算机视觉和模式识别会议的会议记录。2023。2。