Google 通过使用 SLM 作为教师,将 AI 训练速度提高 28%

训练大型语言模型 (LLM) 对大多数组织来说已经变得遥不可及。由于成本高达数百万美元,计算要求让超级计算机汗流浃背,人工智能开发仍被锁在科技巨头的大门后面。但谷歌用一种非常简单的方法颠覆了这个故事,它让你 […] 这篇文章谷歌通过使用 SLM 作为教师将人工智能训练速度提高 28% 首次出现在 Unite.AI 上。

来源:Unite.AI

训练大型语言模型 (LLM) 对于大多数组织来说已经变得遥不可及。由于成本高达数百万美元,计算要求也让超级计算机汗流浃背,人工智能开发仍然被锁在科技巨头的大门后面。但谷歌用一种非常简单的方法颠覆了这个故事,这让你不禁想知道为什么没有人早点想到它:使用较小的人工智能模型作为老师。

大型语言模型 (LLM)

SALT 的工作原理:一种训练人工智能模型的新方法

在最近一篇题为“一点帮助大有裨益:利用小型 LM 进行高效的 LLM 训练”的研究论文中,谷歌研究和 DeepMind 引入了 SALT(小模型辅助大模型训练)。这是一种挑战我们训练 LLM 的传统方法的新方法。

一点帮助大有裨益:利用小型 LM 进行高效的 LLM 训练,

为什么这项研究很重要?目前,训练大型 AI 模型就像试图一次性教会某人关于某一主题的所有知识一样——这种方法效率低、成本高,而且通常仅限于拥有大量计算资源的组织。SALT 采取了不同的方法,引入了既创新又实用的两阶段训练过程。

分解 SALT 的实际工作原理:

分解 SALT 的实际工作原理:

第 1 阶段:知识提炼

第 1 阶段:知识提炼 第 1 阶段:知识提炼
    较小的语言模型 (SLM) 充当老师,与较大的模型分享其理解较小的模型专注于通过研究人员所谓的“软标签”传递其“学习到的知识”可以将其视为在学生进入高级主题之前处理基础概念的助教这个阶段在“简单”的学习领域特别有效 - 较小模型具有强大预测信心的领域
  • 较小的语言模型 (SLM) 充当老师,与较大的模型分享其理解
  • 较小的语言模型 (SLM)

    第 2 阶段:自我监督学习