Loading...
机构名称:
¥ 1.0

潜在扩散模型(LDMS)的最新进步已将它们置于各种生成任务的最前沿。但是,它们的迭代采样过程构成了重大的计算负担,从而导致生成速度缓慢,并限制了其在文本到审计生成部署中的应用。在这项工作中,我们介绍了AudiolCM,这是一种基于一致性的新型模型,该模型量身定制,专门针对高效和高质量的文本发电。与以前通过迭代过程解决噪声删除的方法不同,AudiolCM将一致性模型(CMS)集成到生成过程中,从而通过从任何时间步长到轨迹的初始点的任何点映射来促进快速推断。过度提出了LDMS固有的收敛性问题,并减少了样品迭代,我们提出了带有多步骤的普通微分方程(ODE)求解器的引导潜在一致性蒸馏。这项创新将时间表从数千个步骤缩短到数十个步骤,同时保持样本质量,从而实现快速的收敛和高质量的生成。此外,为了优化基于变形金刚的神经网络体系结构的性能,我们将Llama率先启用的先进技术集成到变压器的基础框架中。该体系结构支持稳定,有效的培训,以确保文本与原告合成中的稳健性能。关于文本到审计生成和文本到音乐综合任务的实验结果表明,Audiolcm仅需要2个迭代即可合成高保真音频,而它可以保持样本质量与最新的

audiolcm:具有最小推理步骤

audiolcm:具有最小推理步骤PDF文件第1页

audiolcm:具有最小推理步骤PDF文件第2页

audiolcm:具有最小推理步骤PDF文件第3页

audiolcm:具有最小推理步骤PDF文件第4页

audiolcm:具有最小推理步骤PDF文件第5页