VSSFlow:通过联合学习统一视频条件声音和语音生成

视频条件声音和语音生成,包括视频转声音 (V2S) 和视觉文本转语音 (VisualTTS) 任务,通常被视为单独的任务,将它们统一到单一框架内的探索有限。最近统一 V2S 和 VisualTTS 的尝试在处理不同的条件类型(例如异构视频和转录条件)方面面临挑战,并且需要复杂的训练阶段。统一这两项任务仍然是一个悬而未决的问题。为了弥补这一差距,我们推出了 VSSFlow,它将 V2S 和 VisualTTS 任务无缝集成到一个统一的……

来源:Apple机器学习研究

视频条件声音和语音生成,包括视频转声音 (V2S) 和视觉文本转语音 (VisualTTS) 任务,通常被视为单独的任务,将它们统一到单一框架内的探索有限。最近统一 V2S 和 VisualTTS 的尝试在处理不同的条件类型(例如异构视频和转录条件)方面面临挑战,并且需要复杂的训练阶段。统一这两项任务仍然是一个悬而未决的问题。为了弥补这一差距,我们推出了 VSSFlow,它将 V2S 和 VisualTTS 任务无缝集成到统一的流匹配框架中。 VSSFlow 使用新颖的条件聚合机制来处理不同的输入信号。我们发现交叉注意层和自注意层在引入条件的过程中表现出不同的归纳偏差。因此,VSSFlow 利用这些归纳偏差来有效处理不同的表示:针对模糊视频条件的交叉注意力和针对更具确定性的语音转录本的自注意力。此外,与普遍认为这两项任务的联合训练需要复杂的训练策略并可能降低性能的观点相反,我们发现 VSSFlow 受益于声音和语音生成的端到端联合学习过程,而无需在训练阶段进行额外设计。详细分析将其归因于任务之间共享的学习到的通用音频先验,这加速了收敛,增强了条件生成,并稳定了无分类器的引导过程。大量实验表明,VSSFlow 超越了 V2S 和 VisualTTS 基准上最先进的特定领域基线,凸显了统一生成模型的关键潜力。

  • † 中国人民大学