摘要 - 在这项工作中,我们基于以前的出版物和基于Iffusion的GenerativeModelsForsPeechenHancement。我们介绍了基于随机微分方程的扩散过程的详细概述,并深入研究了其含义的广泛理论研究。与通常的有条件生成任务相反,我们不会从纯高斯噪声中开始反向过程,而是从嘈杂的语音和高斯噪声的混合物开始。这与我们的前进过程相匹配,该过程通过包括一个漂移术语从干净的语音到嘈杂的语音。我们表明,此过程仅使用30个扩散步骤来生成高质量的干净语音估计。通过调整网络架构,我们能够显着提高语音增强性能,表明网络而不是形式主义是我们原始范围的主要限制。在广泛的跨数据库评估中,我们表明,改进的方法可以与最近的判别模型竞争,并在评估与培训不同的语料库时可以更好地概括。我们使用现实世界的嘈杂录音和听力实验的仪器评估来补充结果,其中我们提出的方法是最好的。检查以解决反向过程的不同采样器配置,使我们能够平衡性能和计算速度驱动量。此外,Weshowthatthatthatthatthatthepropsed方法也适用于消耗,因此不限于添加背景噪声的去除。
主要关键词