启用私人联合学习以进行语音识别:基准,自适应优化器和梯度剪裁

虽然已经对联邦学习(FL)和差异隐私(DP)进行了广泛的研究,但由于训练大型变压器模型的挑战,它们在自动语音识别(ASR)中的应用仍未得到探索。具体而言,大型模型进一步加剧了FL中的问题,因为它们特别容易受到各个层的梯度异质性的影响,这与在浅层模型中观察到的相对均匀的梯度行为不同。结果,即使在没有DP机制的情况下,先前的工作也很难融合标准优化技术。据我们所知……

来源:Apple机器学习研究

虽然联邦学习 (FL) 和差分隐私 (DP) 已得到广泛研究,但由于训练大型 Transformer 模型面临挑战,它们在自动语音识别 (ASR) 中的应用在很大程度上仍未得到探索。具体来说,大型模型进一步加剧了 FL 中的问题,因为它们特别容易受到层间梯度异质性的影响,这与浅层模型中观察到的相对均匀的梯度行为不同。因此,即使在没有 DP 机制的情况下,先前的工作也难以与标准优化技术收敛。据我们所知,现有的工作还没有为 ASR 背景下的 FL 和 DP 建立一个有竞争力的、实用的方法。为了弥补这一差距,我们在端到端 ASR 中建立了 FL 和 DP 的第一个基准。我们的方法以每层裁剪和逐层梯度归一化为中心:理论分析表明,这些技术共同减轻了更深模型中各层的裁剪偏差和梯度异质性。与这些理论见解一致,我们的实证结果表明,在强大的隐私保证下,具有 DP 的 FL 是可行的,提供了至少数百万用户的人口。具体来说,当外推到 ASR 中 DP 的 FL 的高(或低)人口规模时,我们实现了用户级 (7.2, 10−910^{-9}10−9)-DP(分别为 (4.5, 10−910^{-9}10−9)-DP),单词错误率绝对下降了 1.3%(分别为 4.6%)。尽管我们的实验重点关注 ASR,但我们发现的基本原理(尤其是有关梯度异质性和逐层梯度归一化的原理)为跨领域的大型模型设计可扩展、保护隐私的 FL 算法提供了更广泛的指导。

10−910^{-9}10−9 10−910^{-9} 10−9 1 0−9 0 -9 - 9 10^{-9}
    * 平等贡献者† 普渡大学
  • * 平等贡献者
  • † 普渡大学
  • 图 1: