ImmerseDiffusion:生成空间音频潜在扩散模型

我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……

来源:Apple机器学习研究

我们推出了 ImmerseDiffusion,这是一种端到端的生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种传统的空间音频格式,包含四个通道,可渲染为多通道空间输出。建议的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型(即文本提示、空间、时间和环境声学参数)训练的潜在扩散模型以及可选的以对比语言和音频预训练 (CLAP) 风格训练的空间音频和文本编码器组成。我们提出了一些指标来评估生成的空间音频的质量和空间依从性。最后,我们根据生成质量和空间一致性评估模型性能,比较两种建议的模式:“描述性”,使用空间文本提示,以及“参数性”,使用非空间文本提示和空间参数。我们的评估表明结果令人满意,与用户条件一致,并反映了可靠的空间保真度。