HRSAM

2024-11-26 机构名称:

arxiv：2407.02109v2 [cs.cv] 2024年11月23日

任何模型（SAM）具有先进的分割分割，但受高分辨率图像上的高计算成本的限制。这需要下采样以满足GPU的约束，牺牲了高精度交互式分割所需的细粒度。为了解决SAM的局限性，我们专注于视觉长度外推，并提出了一个名为HRSAM的轻量级模型。外推可以使接受低分辨率的HRSAM推广到高分辨率。我们首先找到推断和注意力评分之间的联系，这使我们在Swin的注意力下基于HRSAM。然后，我们使用CUDA优化的有效记忆注意以加速HRSAM引入灵活的局部关注（FLA）框架。在FLA中，我们实施了Flash Swin的注意，与传统的Swin注意相比，速度达到了35％的速度，并提出了一种仅KV的填充机制来增强术语。我们还开发了使用状态空间模型有效扩展HRSAM的受访场的自行车扫描模块。我们通过添加锚固图进一步开发了FLA中的HRSAM ++，从而以少量的计算成本为外推提供了多尺度数据和更大的接受场。实验表明，在标准培训下，HRSAMS仅占延迟的38％。随着SAM-依据，推断会使HRSAM能够在较低的延迟下胜过教师模型。进一步的填充能够显着超过先前的SOTA。代码可在https://github.com/youhuang67/high-resolution-segment-anything.git

查看详细

XiaoMi-AI文件搜索系统

HRSAM

arxiv：2407.02109v2 [cs.cv] 2024年11月23日

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI