详细内容或原文请订阅后点击阅览
SLiCK:利用子序列进行长度受限的关键字识别
在资源受限的边缘设备上进行用户定义的关键字识别具有挑战性。但是,关键字通常受最大关键字长度的限制,这在以前的工作中基本上没有得到充分利用。我们对关键字长度分布的分析表明,用户定义的关键字识别可以视为长度受限的问题,从而无需对可变文本长度进行聚合。这导致了我们提出的高效关键字识别方法 SLiCK(利用子序列进行长度受限的关键字识别)。我们进一步引入了子序列级匹配方案来……
来源:Apple机器学习研究在资源受限的边缘设备上进行用户定义的关键字识别具有挑战性。但是,关键字通常受最大关键字长度的限制,这在以前的研究中基本上没有得到充分利用。我们对关键字长度分布的分析表明,用户定义的关键字识别可以视为长度受限的问题,从而无需对可变文本长度进行聚合。这导致了我们提出的高效关键字识别方法 SLiCK(利用子序列进行长度受限的关键字识别)。我们进一步引入了子序列级匹配方案,以更细的粒度学习音频文本关系,从而通过增强的上下文更有效地区分发音相似的关键字。在 SLiCK 中,该模型使用两个模块采用多任务学习方法进行训练:Matcher(话语级匹配任务、新子序列级匹配任务)和 Encoder(音素识别任务)。所提出的方法改进了 Libriphrase 硬数据集上的基线结果,将 AUC 从 88.52 提高到 94.9,并将 EER 从 18.82 降低到 11.1。