详细内容或原文请订阅后点击阅览
训练小规模大型语言模型的计算瓶颈
这篇论文被 NeurIPS Workshop 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。虽然大型语言模型 (LLM) 主导着人工智能领域,但由于消费者对成本和效率的要求,小规模大型语言模型 (SLM) 正受到关注。然而,对 SLM 的训练行为和计算要求的研究有限。在本研究中,我们通过检查各种超参数和配置(包括 GPU 类型、批量大小等)的影响,探索了训练 SLM(最多 2B 个参数)的计算瓶颈…
来源:Apple机器学习研究本文在Neurips Workshop 2024的有效自然语言和语音处理(ENLSP)讲习班中接受。
尽管大型语言模型(LLMS)主导了AI景观,但由于成本和效率的需求,小规模的大语言模型(SLM)正在引起关注。但是,关于SLM的培训行为和计算要求的研究有限。在这项研究中,我们通过检查各种超参数和配置的影响,包括GPU类型,批处理大小,模型大小,通信协议,注意力类型以及GPU的数量,探索训练SLM(最多2B参数)的计算瓶颈。我们使用诸如每美元损失和每秒代币等指标评估流行云服务的这些因素。我们的发现旨在支持低资源AI研究机构的语言模型培训的广泛采用和优化。