详细内容或原文请订阅后点击阅览
atoken:视觉的统一令牌
我们介绍了Atoken,这是第一个跨图像,视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同,atoken将这些不同的视觉输入编码为共享的4D潜在空间,在单个框架中统一任务和模态。具体而言,我们引入了带有4D旋转位置嵌入的纯变压器体系结构,以处理任意分辨率和时间持续时间的视觉输入。确保稳定…
来源:Apple机器学习研究我们介绍了Atoken,这是第一个跨图像,视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同,atoken将这些不同的视觉输入编码为共享的4D潜在空间,在单个框架中统一任务和模态。具体而言,我们引入了带有4D旋转位置嵌入的纯变压器体系结构,以处理任意分辨率和时间持续时间的视觉输入。为了确保稳定的培训,我们引入了一个无对抗性的训练目标,该目标结合了感知和革兰氏矩阵损失,以实现最新的重建质量。通过采用渐进培训课程,Atoken逐渐从单个图像,视频和3D扩展,并支持连续和离散的潜在令牌。 Atoken的图像具有82.2%Imagenet精度的0.21 RFID,3.01 RFVD的MSRVTT检索为40.2%,为28.28 PSNR,3D的分类精度为90.9%。在下游应用程序中,Atoken可以启用视觉生成任务(例如,具有连续和离散令牌的图像生成,文本到视频生成,图像到3D综合)和理解任务(例如,多模式LLMS),在所有基准标准中实现竞争性能。这些结果阐明了下一代多模式AI系统建立在统一的视觉令牌上。
