Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……