详细内容或原文请订阅后点击阅览
基于一致性的极端边缘计算设备上的语音识别
这篇论文被 NAACL 2024 的行业轨道所接受。随着当今设备的计算能力和资源越来越强大,传统上计算密集型的自动语音识别 (ASR) 已从云端转移到设备,以更好地保护用户隐私。然而,在资源受限的设备(如智能手机、智能可穿戴设备和其他小型家庭自动化设备)上实现设备上的 ASR 仍然具有挑战性。在本文中,我们提出了一系列模型架构调整、神经网络图转换和数值优化来……
来源:Apple机器学习研究本文被 NAACL 2024 的行业轨道接受。
随着当今设备的计算能力和资源越来越强大,传统上计算密集型的自动语音识别 (ASR) 已从云端转移到设备,以更好地保护用户隐私。 然而,在资源受限的设备(如智能手机、智能可穿戴设备和其他小型家庭自动化设备)上实现设备上的 ASR 仍然具有挑战性。 在本文中,我们提出了一系列模型架构调整、神经网络图转换和数值优化,以在资源受限的设备上适应基于先进 Conformer 的端到端流式 ASR 系统,而不会降低准确性。 我们在小型可穿戴设备上实现了比实时(0.19 RTF)语音识别快 5.26 倍以上的速度,同时最大限度地降低了能耗并实现了最先进的准确性。 所提出的方法广泛应用于其他基于变压器的无服务器 AI 应用程序。此外,我们提供了关于最佳预规范化器的完整理论,该理论可以使用任何浮点精度在任何 Lp 范数中数值稳定层规范化。