摘要:从记录大脑活动的 fMRI 信号中重建视觉刺激是一项具有挑战性的任务,在神经科学和机器学习领域具有重要的研究价值。先前的研究倾向于强调重建刺激图像的像素级特征(轮廓、颜色等)或语义特征(对象类别),但通常这些属性不会一起重建。在这种情况下,我们介绍了一种新颖的三阶段视觉重建方法,称为双引导脑扩散模型 (DBDM)。首先,我们使用非常深的变分自动编码器 (VDVAE) 从 fMRI 数据中重建粗略图像,捕捉原始图像的底层细节。随后,使用引导语言图像预训练 (BLIP) 模型为每个图像提供语义注释。最后,利用多功能扩散 (VD) 模型的图像到图像生成管道从由视觉和语义信息引导的 fMRI 模式中恢复自然图像。实验结果表明,DBDM 在定性和定量比较方面均超越了以前的方法。特别是,DBDM 在重建原始图像的语义细节方面取得了最佳性能;Inception、CLIP 和 SwAV 距离分别为 0.611、0.225 和 0.405。这证实了我们模型的有效性及其推动视觉解码研究的潜力。
主要关键词