获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在本文中,我们建议利用扩散模型在语音情感识别(SER)中进行数据构建。,我们提出了一种有效的方法来利用改进的脱氧扩散概率模型(IDDPM)来生成综合情绪数据。我们将IDDPM与来自传输器(BERT)的双向编码器表示的文本式床位调节,以在不同扬声器的声音中生成高质量的合成情感样品1。我们实施了一系列实验,并表明更好的质量合成数据有助于提高SER性能。我们将结果与生成的对抗网络(GAN)进行了比较,并表明所提出的模型生成更好的合成样品,这些样本可以在增强合成数据时可以大大改善SER的性能。索引术语:语音情绪识别,综合语音,生成模型,数据增强。