在缺少编码器的情况下在 Voxtral 上进行语音克隆的指南

如果我们有 Voxtral 文本转语音模型的音频,我们可以重建音频代码吗?这篇文章《使用缺失编码器在 Voxtral 上进行语音克隆指南》首先出现在《走向数据科学》上。

来源:走向数据科学

最近由 Mistral 发布。根据 Mistral 的测试,这是一个强大的文本转语音模型,击败了 ElevenLabs v2.5 Flash。除了在文本到语音任务(在类似大小的模型中)上的最先进的性能之外,Mistral 还宣布了语音克隆功能并公布了其模型的权重。这引起了人们的巨大兴趣,因为企业和社区都需要一个足够小、能够进行本地推理、具有语音克隆功能的高质量文本转语音 (TTS) 模型。

但问题是,Mistral 删除了音频自动编码器的编码器权重,因此用户无法克隆任何语音,我们只能使用 Mistral 为我们准备的语音。与论文和最初的公告相比,这是一个巨大的限制。

在这里,我提供 (1) Voxtral TTS 架构的概述以及一些技术细节和比较,(2) 我对音频自动编码器及其实际编码音频的研究,(3) 关于如何仍然获得任何音频的表示以可能使用语音克隆的研究,即使已发布的权重在编码器的一部分被截断。

为什么我确信 Voxtral TTS 是一项值得理解的技术(简短的个人故事)

几年前,我在 Skyeng 工作,我们正在构建自动语音识别 (ASR) 系统。当时是 2021 年,OpenAI 还没有发布 Whisper,ASR 任务是一个热门话题,尤其是对于一些不常见的语音——我们的 ASR 是针对非母语人士的。

Voxtral TTS 概述

Voxtral-4B-TTS 是一个 40 亿参数模型,使用基于自回归大语言模型 (LLM) 的 3B 主干(Ministral 3B 模型)。简而言之,该模型将一些代表要克隆的语音和要发声的文本标记的音频标记作为输入。与 LLM 类似,该模型自回归生成令牌,不同之处在于这些令牌是语音令牌。在描述该模型的论文中,对于这部分有以下说明: