ImmerseDiffusion领域信息情报检索---XiaoMi-AI

2025年2月12日 00:00

ImmerseDiffusion：生成空间音频潜在扩散模型

ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model

我们引入了 ImmerseDiffusion，这是一种端到端生成音频模型，可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频，这是一种包含四个通道的传统空间音频格式，可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型（即文本提示、空间……

ImmerseDiffusion关键词检索结果

ImmerseDiffusion：生成空间音频潜在扩散模型