详细内容或原文请订阅后点击阅览
声学邻域嵌入的理论框架
本文提供了一个解释声学邻域嵌入的理论框架,声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义,提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据,这使我们能够......
来源:Apple机器学习研究本文提供了一个解释声学邻域嵌入的理论框架,声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义,提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据,这使我们能够将距离减少到简单的欧几里德距离。描述了验证该框架并演示如何将其应用于不同问题的四个实验。音频和文本嵌入之间的最近邻搜索可以提供与有限状态传感器 (FST) 对于大至 500k 词汇表的孤立词分类精度相同的精度。与词汇表外单词恢复中的电话编辑距离相比,嵌入距离的准确度为 0.5% 点差,并且生成的聚类层次结构与英语方言聚类中人类听力实验得出的聚类层次结构相同。该理论框架还允许我们使用嵌入来预测设备唤醒词的预期混淆。提供所有源代码和预训练模型。
