详细内容或原文请订阅后点击阅览
Visatronic:语音合成的一种多模式解码器模型
在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……
来源:Apple机器学习研究在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型将视觉,文本和语音直接嵌入变压器模型的常见子空间中,并使用自回归损失来学习以扬声器视频和语音的成绩单为条件的离散MEL光谱图的生成模型。通过将所有模式嵌入一个共同的子空间中,Visatronic可以比仅使用文本或视频作为输入的模型获得改进的结果。此外,与依靠唇部检测器和复杂的体系结构融合方式的同时,在产生更好的结果的同时,它为多模式语音生成提供了一种更简单的方法。由于该模型足够灵活,可以容纳不同的订购输入方式作为顺序,因此我们仔细探索了不同的策略,以更好地了解将信息传播到生成步骤的最佳方法。为了促进对VTTS的进一步研究,我们将发布(i)大规模voxceleb2数据集的代码,(ii)清理转录,以及(iii)为VTTS的标准化评估协议,该协议既包含客观和主观指标。