摘要 - 神经音频编解码器通过有效将连续音频信号转换为离散令牌,具有显着高级的音频组合。这些编解码器可以通过对这些令牌进行训练的生成模型来保留高质量的声音,并使复杂的声音生成。但是,现有的神经编解码器模型通常在大型,未分化的音频数据集上进行训练,从而忽略了语音,音乐和环境声音效果等声音域之间的基本差异。这种监督使数据建模复杂化,并为声音发电的可控性带来了其他挑战。为了解决这些问题,我们介绍了源 - 触发性神经音频编解码器(SD-CODEC),这是一种结合音频编码和源分离的新型方法。通过共同学习音频重新合成和分离,SD-Codec明确地将来自不同域的音频信号分配给不同的代码书,以及一组离散表示。实验结果表明,SD-Codec不仅保持竞争性的重新合成质量,而且还得到了分离结果的支持,还证明了潜在空间中不同来源的成功分离,从而增强了音频编解码器中的可解释性,并提供了对音频产生过程的潜在控制。索引术语 - 神经音频编解码器,源分离,表示学习,量化。
主要关键词