详细内容或原文请订阅后点击阅览
StereoFoley:从视频生成对象感知立体声音频
我们推出了 StereoFoley,这是一种视频到音频生成框架,可在 48 kHz 下产生语义对齐、时间同步和空间精确的立体声。虽然最近的生成视频到音频模型实现了强大的语义和时间保真度,但由于缺乏专业混合、空间精确的视频到音频数据集,它们在很大程度上仍然局限于单声道或无法提供对象感知的立体成像。首先,我们开发和训练一个从视频生成立体声音频的基本模型,在语义准确性和同步方面实现了最先进的水平。下一步...
来源:Apple机器学习研究我们推出了 StereoFoley,这是一种视频到音频生成框架,可在 48 kHz 下产生语义对齐、时间同步和空间精确的立体声。虽然最近的生成视频到音频模型实现了强大的语义和时间保真度,但由于缺乏专业混合、空间精确的视频到音频数据集,它们在很大程度上仍然局限于单声道或无法提供对象感知的立体成像。首先,我们开发和训练一个从视频生成立体声音频的基本模型,在语义准确性和同步方面实现了最先进的水平。接下来,为了克服数据集限制,我们引入了一种合成数据生成管道,它将视频分析、对象跟踪和音频合成与动态平移和基于距离的响度控制相结合,从而实现空间精确的对象感知声音。最后,我们在此合成数据集上微调基本模型,产生清晰的对象-音频对应关系。由于不存在既定的指标,我们引入了立体对象感知测量,并通过人类听力研究对其进行验证,显示出与感知的强相关性。这项工作为立体对象感知视频到音频生成建立了第一个端到端框架,解决了关键差距并在该领域树立了新基准。
