投影语言模型:将大型模型预先分割成较小的模型

这篇论文已被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。大型语言模型是一种多功能工具,但不适合小型推理预算。小型模型具有更高效的推理能力,但其容量较低,这意味着只有将其范围限制在专业领域时,其性能才会很好。这篇论文探讨了如何获得具有良好专业准确度的小型语言模型,即使在预训练期间专业化数据未知的情况下也是如此。我们提出了一种新颖的架构,即投影网络 (PN)。PN 是一种高容量网络,其参数……

来源:Apple机器学习研究

本文已被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。

大型语言模型是多功能工具,但不适合小额推理预算。小型模型具有更高效的推理能力,但其较低的容量意味着只有将其范围限制在专业领域时,其性能才会很好。本文探讨了如何获得具有良好专业准确度的小型语言模型,即使在预训练期间专业化数据未知的情况下也是如此。我们提出了一种新颖的架构,即投影网络 (PN)。PN 是一种高容量网络,其参数可以线性投影到小型网络中进行微调。与小型模型训练、蒸馏和专家硬混合相比,我们评估了我们的解决方案的经验有效性。