获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
由于缺乏配对样本且功能性磁共振成像 (fMRI) 信号的信噪比低,重建感知到的自然图像或从 fMRI 数据解码其语义内容是一项艰巨的任务。在这项工作中,我们首次提出了一种与任务无关的基于 fMRI 的大脑解码模型 BrainCLIP,该模型利用 CLIP 的跨模态泛化能力来弥合大脑活动、图像和文本之间的模态差距。我们的实验表明,CLIP 可以作为通用大脑解码任务的关键,包括零样本视觉类别解码、fMRI 图像/文本匹配和 fMRI 到图像生成。具体来说,BrainCLIP 旨在通过结合视觉和文本监督来训练一个映射网络,将 fMRI 模式转换为对齐良好的 CLIP 嵌入空间。我们的实验表明,这种组合可以提高解码模型在某些任务上的性能,例如 fMRI 文本匹配和 fMRI 到图像生成。在零样本视觉类别解码任务中,BrainCLIP 的表现明显优于 BraVL,后者是最近提出的一种专门为该任务设计的多模态方法。BrainCLIP 还可以重建具有高语义保真度的视觉刺激,并在高级语义特征方面为基于 fMRI 的自然图像重建建立了新的领先水平。