摘要近年来,变形金刚领导了自然语言处理的一场革命,而视觉变形者(VIT)承诺在计算机视觉中也这样做。广泛使用VIT的主要障碍是它们的计算成本。的确,给定图像分为一个贴片列表,vits计算每一层,每个贴片相对于所有其他贴片的注意力。在文献中,许多解决方案试图使用量化,知识蒸馏和输入扰动来降低注意力层的计算成本。在本文中,我们的目标是在这种情况下做出贡献。特别是,我们提出了一个使用加强学习来培训代理的框架,该框架是在培训VIT期间确定最不重要的补丁的代理商。一旦确定了此类斑块,AgentVit就将其删除,从而减少了VIT处理的斑块数量。我们的目标是减少VIT的训练时间,同时保持竞争性能。