声学邻域嵌入的理论框架 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

声学邻域嵌入的理论框架

2026年4月9日 00:00 33 Comments

本文提供了一个解释声学邻域嵌入的理论框架，声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义，提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据，这使我们能够......

来源:Apple机器学习研究

本文提供了一个解释声学邻域嵌入的理论框架，声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义，提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据，这使我们能够将距离减少到简单的欧几里德距离。描述了验证该框架并演示如何将其应用于不同问题的四个实验。音频和文本嵌入之间的最近邻搜索可以提供与有限状态传感器 (FST) 对于大至 500k 词汇表的孤立词分类精度相同的精度。与词汇表外单词恢复中的电话编辑距离相比，嵌入距离的准确度为 0.5% 点差，并且生成的聚类层次结构与英语方言聚类中人类听力实验得出的聚类层次结构相同。该理论框架还允许我们使用嵌入来预测设备唤醒词的预期混淆。提供所有源代码和预训练模型。

框架邻域音频聚类距离相似性语音相同的传感器训练模型理论框架嵌入提供词汇表嵌入的文本层次结构应用最近邻实验源代码准确度简单的各向同性

声学邻域嵌入的理论框架

其他外部链接

Tags

XiaoMi-AI