跨语性转移是一种在低资源环境中增加NLP任务的培训数据量的流行方法。但是,确定包含哪些跨语性数据的最佳策略尚不清楚。先前的研究通常集中于一些语言家庭或一项任务的一小部分语言。这些发现如何扩展到多种多样的语言和任务仍然是一个悬而未决的问题。在这项工作中,我们通过分析来自各种语言家庭的263种语言的跨语化转移来为这个问题做出了贡献。此外,我们包括三个流行的NLP任务…
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……