变压器最初用于自然语言处理,但仍被广泛用作计算机视觉中的通用骨架。最近,长期短期内存(LSTM)已扩展到可扩展的性能架构 - XLSTM,该架构通过凸起的门控和可行的矩阵存储器结构克服了长期存在的LSTM限制。在本报告中,我们会引入Vision-LSTM(VIL),XLSTM构建块的改编对计算机视觉。vil包括一堆XLSTM块,其中奇数块处理了从上到下的贴片令牌的序列,而甚至块也从底部到顶部。实验表明,VIL有望进一步部署为计算机视觉体系结构的新通用骨干。项目页面:https://nx-ai.github.io/vision-lstm/