详细内容或原文请订阅后点击阅览
语音推测解码的原则性粗粒度接受
推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...
来源:Apple机器学习研究推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分割到包含它的重叠组中,我们定义了一个重叠感知的粗粒度分布,并对结果组变量执行拒绝采样。这在组级别产生了精确性保证,同时允许接受的草案代币在实践中代表组的任何成员。在 LibriTTS 上,PCG 相对于标准推测解码和先前的特定于语音的松弛提高了接受度和吞吐量,同时保持了清晰度和说话者相似性。这些结果表明,声学感知、群体级别的接受是一种简单而通用的方法,可以在保持语音质量的同时加速语音令牌的生成。
