Atoken关键词检索结果

atoken:视觉的统一令牌

AToken: A Unified Tokenizer for Vision

我们介绍了Atoken,这是第一个跨图像,视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同,atoken将这些不同的视觉输入编码为共享的4D潜在空间,在单个框架中统一任务和模态。具体而言,我们引入了带有4D旋转位置嵌入的纯变压器体系结构,以处理任意分辨率和时间持续时间的视觉输入。确保稳定…