混合物的兴起:稀疏AI模型如何塑造机器学习的未来

混合物(MOE)模型正在彻底改变我们缩放AI的方式。通过在任何给定时间仅激活模型组件的一个子集,MOE提供了一种新颖的方法来管理模型大小和计算效率之间的权衡。与传统的密集模型使用所有参数用于每个输入不同,MOE都可以实现巨大的参数计数,而[…]邮政的混合物的兴起:稀疏的AI模型如何塑造机器学习的未来首先出现在Unite.ai上。

来源:Unite.AI

混合物(MOE)模型正在彻底改变我们缩放AI的方式。通过在任何给定时间仅激活模型组件的一个子集,MOE提供了一种新颖的方法来管理模型大小和计算效率之间的权衡。与传统的密集模型使用所有参数用于每个输入的模型不同,MOE可以实现巨大的参数计数,同时保持推理和培训成本易于管理。这一突破助长了一波研发,导致技术巨头和初创企业对基于MoE的建筑进行大量投资。

Experts(MOE)的混合物

混合物模型的工作方式

在其核心模型上,由多个专门的子网络组成,称为“专家”,由门控机制负责,该机制决定哪些专家应处理每个输入。例如,传递到语言模型的句子只能与八分之二的专家参与其中,从而大大减少了计算工作量。

这个概念通过Google的Switch Transformer和Glam型号带入了主流,专家取代了Transformers中的传统进料层。例如,“切换变压器”将代币路由到每个层的一个专家,而Glam则使用TOP-2路由来提高性能。这些设计表明,MOE可以匹配或胜过诸如GPT-3(例如GPT-3),同时使用明显更少的能量和计算。

Google的Switch Transformer和Glam模型

关键创新在于条件计算。 Moes没有激活整个模型,而是仅激活最相关的部分,这意味着具有数百万个参数甚至数百万参数的模型可以以较小的数量级的效率运行。这使研究人员能够在计算方面的线性增加而无需线性增加,这是传统缩放方法无法实现的。

MOE的现实应用

Google的V-MoE架构 YouTube的推荐引擎已采用了MoE式建筑

好处和挑战

Google