使用矢量量化优化上下文语音识别以实现高效检索

神经语境偏差允许语音识别模型利用语境相关信息,从而提高转录准确性。然而,偏差机制通常基于音频和偏差条目目录之间的交叉注意模块,这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制,从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值,并实现了计算和内存高效的大偏差使用……

来源:Apple机器学习研究

神经上下文偏见允许语音识别模型利用上下文相关的信息,从而提高了转录精度。但是,偏置机制通常基于音频和偏置条目目录之间的交叉意见模块,这意味着计算复杂性可以对偏置目录的大小构成严重的实际限制,从而对准确性提高构成严重的限制。这项工作提出了基于矢量量化的跨注意评分的近似值,并实现了对大偏置目录的计算和记忆有效的使用。我们建议通过基于检索的上下文偏见方法共同使用这项技术。首先,我们使用有效的量化检索模块将它们接地在音频上来候选偏置条目。然后,我们使用检索到的条目进行偏差。由于所提出的方法对偏见方法不可知,因此我们使用全面的交叉注意,LLM提示和两者的组合进行了研究。我们表明,基于检索的入围名单使系统能够有效利用数千个条目的偏置目录,从而导致个人实体识别的相对错误率降低高达71%。同时,与标准的DOT-DOT-Prododuct Cross-Crottion相比,提出的近似算法将计算时间降低了20%,记忆使用率减少了85-95%。