详细内容或原文请订阅后点击阅览
MUSCLE:兼容 LLM 演化的模型更新策略
大型语言模型 (LLM) 会定期更新以提高性能,通常是通过更改数据或架构来实现的。在更新过程中,开发人员通常优先考虑改进整体性能指标,而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型,这可能会导致不满,尤其是当……
来源:Apple机器学习研究大型语言模型(LLMS)经常更新以提高性能,通常通过数据或体系结构的更改。在更新过程中,开发人员通常优先考虑改进整体性能指标,而更少注意与早期模型版本的兼容性。从一个模型版本到下一个模型版本的实例级降低(实例回归)可以干扰用户的特定语言模型功能的心理模型。用户必须在每次更新中调整其心理模型可能会导致不满意,尤其是当与已知用例的先前版本相比,新模型降低了(模型更新回归)。我们发现,当审计的LLM基础模型被更新时,更新了良好的用户面向用户的面向用户的fom for用户,下游任务适配器的下游任务适配器会体验到负面的flages-prections Procect Procect Incortians predical ded Idifated Indifed IndifeRERERERELERERERELERELERERELERELERELERELERERERELLERERELERERERELERERERELLERERERELERERELERELERELERY。我们观察到不同模型版本之间的模型更新回归,即使下游任务训练过程保持相同,也可以在各种任务和模型上进行回归。我们主张在更新过程中维护模型更新兼容性的重要性,并目前专门针对生成任务设计的评估指标,同时也适用于歧视任务。我们提出了一种培训策略,以最大程度地减少模型更新中的实例回归程度,涉及培训可以增强任务微调语言模型的兼容性适应器。我们显示的负面额减少了40%,例如使用我们建议的方法将美洲驼1更新为Llama 2。