详细内容或原文请订阅后点击阅览
大型语言模型最多可优化 15%,且不会降低质量
来自 Sberbank、AIRI 研究所融合脑实验室和 Skoltech 的科学家发现了大型语言模型的一个全新特性,并学会了控制它。这将使转换模型优化 10-15%,而不会损失质量,从而节省计算能力。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)来自 Sberbank、AIRI 研究所融合脑实验室和 Skoltech 的科学家发现了大型语言模型的一个全新特性,并学会了控制它。这将使转换模型优化 10-15%,而不会损失质量,从而节省计算能力。
具有变压器架构的模型构成了对话机器人的基础。在此类模型中,有很多层:从输入(例如,请求“画一只猫”)开始,信息到达输出并转换为图片。人们普遍认为,层的线性度是最弱模型的属性,而非线性是强模型(即相同变压器)的属性。线性提供了计算的简单性和效率,但该模型无法解决复杂的问题,例如学习数据中的异常模式。
研究人员按解码器类型研究了 20 种知名开源语言模型的结构,发现嵌入(数据的数字表示)之间存在高度线性关系。因此,当从一层移动到另一层时,信息不会经历非线性变换,并且变压器的复杂架构可以被神经网络的更轻层所取代。
已研究为了避免预训练期间线性的负面特性并提高模型质量指标,专家开发了一种特殊的正则化器。这使得用更简单的模型层替换复杂的模型层块成为可能。在实验过程中,结果表明可以减轻 10% 到 15% 的层重量,而不会降低质量。
该研究成果的文章已被世界人工智能领域最负盛名的会议之一——ACL 2024(Main Track,Core A*)接受发表。