Loading...
机构名称:
¥ 1.0

变压器最初用于自然语言处理,但仍被广泛用作计算机视觉中的通用骨架。最近,长期短期内存(LSTM)已扩展到可扩展的性能架构 - XLSTM,该架构通过凸起的门控和可行的矩阵存储器结构克服了长期存在的LSTM限制。在本报告中,我们会引入Vision-LSTM(VIL),XLSTM构建块的改编对计算机视觉。vil包括一堆XLSTM块,其中奇数块处理了从上到下的贴片令牌的序列,而甚至块也从底部到顶部。实验表明,VIL有望进一步部署为计算机视觉体系结构的新通用骨干。项目页面:https://nx-ai.github.io/vision-lstm/

vision-lstm:XLSTM作为通用视觉骨干

vision-lstm:XLSTM作为通用视觉骨干PDF文件第1页

vision-lstm:XLSTM作为通用视觉骨干PDF文件第2页

vision-lstm:XLSTM作为通用视觉骨干PDF文件第3页

vision-lstm:XLSTM作为通用视觉骨干PDF文件第4页

vision-lstm:XLSTM作为通用视觉骨干PDF文件第5页

相关文件推荐

2024 年
¥2.0
2020 年
¥4.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥3.0
2025 年
¥1.0
1900 年
¥2.0
2025 年
¥1.0
2024 年
¥4.0
2024 年
¥1.0
2024 年
¥4.0
2024 年
¥2.0
1900 年
¥2.0
2025 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2004 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥13.0