视觉跟踪(VLT)通过整体语言描述增强了传统的视觉对象跟踪,要求跟踪器除了视觉信息之外,还可以灵活地理解复杂而多样的文本。但是,大多数现有的视觉跟踪器仍然过于依赖最初的固定多模式提示,这些提示迫使它为动态变化的目标提供有效的指导。幸运的是,互补学习系统(CLS)理论表明,人类成员系统可以动态存储和利用多模式感知信息,从而适应新的情况。受到此启发,(i)我们提出了一个基于mem-ory的v is-l and an an an an an an gracker(memvlt)。通过将内存建模合并以调整静态提示,我们的方法可以提供自适应提示来跟踪指导。(ii)具体来说,根据CLS理论设计了内存存储和内存相互作用模块。这些模块有助于短期和长期记忆之间的存储和灵活的相互作用,从而生成适应目标变化的提示。(iii)最后,我们在主流VLT数据集上进行了广泛的经验(例如g。,mgit,tnl2k,lasot和lasot ext)。实验结果表明,MEMVLT实现了新的最先进的表现。令人印象深刻的是,它在MGIT上获得了69.4%的AUC和TNL2K的63.3%AUC,将现有最佳结果分别提高了8.4%和4.7%。代码和模型将在以下网址发布:https://github.com/xiaokunfeng/memvlt。
主要关键词