详细内容或原文请订阅后点击阅览
用于设备定向语音检测的融合低秩自适应多模态大型语言模型
虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景,但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可以有效地调整预训练的单模态 LLM,通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......
来源:Apple机器学习研究尽管大型语言模型 (LLM) 已显示出实现类人对话的潜力,但它们主要在文本数据上进行预训练。加入音频或视频可提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可有效地调整预训练的单模态 LLM,以通过低秩自适应使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 相对于纯文本方法实现了 22% 的相对等错误率 (EER) 降低,并且与完全微调 (FFT) 对应方法相比实现了性能对等,而只需调整其一小部分参数即可。此外,借助新引入的适配器 dropout,FLoRA 对缺失数据具有很强的鲁棒性,与 FFT 相比,EER 降低了 20%,错误接受率降低了 56%。所提出的方法可以很好地扩展到从 16M 到 3B 参数的模型大小。