摘要 - 本文对深度学习模型开发的三个不同方面的典型技术进行了回顾。在本文的第一部分中,我们提供了音频表示形式的解释,从基本音频波形开始。然后,我们进入频域,重点是人类听力的属性,并最终引入了相对较新的发展。本文的主要部分重点是解释基本和扩展的深度学习体系结构,以及它们在音频生成领域的实际应用。解决了以下档案:1)自动编码器2)生成对抗网络3)标准化流动4)变压器网络5)扩散模型。最后,我们将检查四个不同的评估指标,这些指标通常是在音频生成中使用的。本文旨在为该领域的新手读者和初学者提供对音频生成方法中最新技术的全面理解,以及可以探讨未来研究的相关研究。
主要关键词