Visatronic领域信息情报检索---XiaoMi-AI

2025年3月13日 00:00

Visatronic：语音合成的一种多模式解码器模型

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

在本文中，我们提出了一项新任务 - 从人及其成绩单（VTT）视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务，并且比从视频和文字中生成通用音频剪辑（例如，狗吠叫）的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型，我们称之为Visatronic。该模型直接嵌入视觉，文字和语音……

Visatronic关键词检索结果

Visatronic：语音合成的一种多模式解码器模型