MoRA:游戏、金融、医学——LLM申请边界正在拓展

科学家们发现了如何降低训练大型语言模型的成本。

来源:安全实验室新闻频道

科学家们发现了如何降低训练大型语言模型的成本。

来自微软和北京航空航天大学的研究人员开发了一种用于微调大型语言模型 (LLM) 的创新技术,可显着降低成本。

微软 开发

新的 MoRA 技术是一种参数高效的微调技术 (PEFT),它消除了另一种流行方法 LoRA(低秩自适应)的局限性。当您需要用新知识训练模型时,MoRA 特别有用。随着PEFT方法在商业环境中的日益普及,MoRA可以成为LLM应用程序开发人员的重要工具。

PEFT LoRA

LoRA的优点和缺点

LoRA的优点和缺点

经典的微调需要更新所有模型参数,当参数数量达到数十亿时,这将成为一个成本高昂且缓慢的过程。 PEFT 方法允许您找到针对特定任务调整模型所需的最佳参数子集。

LoRA 之所以流行,是因为它能够通过低秩矩阵更新参数,从而显着降低内存需求。然而,LoRA 并不总是能够应对更复杂的任务,例如数学推理和连续预训练。

LoRA

MoRA简介

MoRA简介

LoRA(左)使用低秩矩阵,而 MoRA(右)使用单个方阵通过有效使用参数进行微调

LoRA(左)使用低秩矩阵,而 MoRA(右)使用单个方阵通过有效使用参数进行微调

MoRA 测试结果

MoRA 测试结果

MoRA 损失曲线与知识保留任务的完整设置非常相似

MoRA 损失曲线与知识保留任务的完整设置非常相似

商业 PEFT

商业 PEFT S-LoRA, 发布实施