摘要。脑刺激重建领域在过去几年中取得了重大进展,但技术仍然是针对特定主题的,并且通常在单个数据集上进行测试。在这项工作中,我们提出了一种新技术,用于从功能性磁共振成像 (fMRI) 信号重建视频,该技术旨在跨数据集和跨人类参与者进行性能测试。我们的流程利用多数据集和多主题训练,从来自不同参与者和不同数据集的大脑活动中准确地生成 2 秒和 3 秒的视频片段。这有助于我们回归预训练的文本到视频和视频到视频模型的关键潜在和条件向量,以重建与参与者观察到的原始刺激相匹配的精确视频。我们流程的关键是引入一种 3 阶段方法,首先将 fMRI 信号与语义嵌入对齐,然后回归重要向量,最后使用这些估计生成视频。我们的方法展示了最先进的重建能力,并通过定性和定量分析(包括众包人工评估)进行了验证。我们展示了跨两个数据集以及多主题设置的性能改进。我们的消融研究揭示了不同的对齐策略和数据缩放决策如何影响重建性能,并且我们通过分析随着更多主题数据的利用,性能如何演变来暗示零样本重建的未来。
主要关键词