详细内容或原文请订阅后点击阅览
Meta AI 展示了一系列语言模型——LLaMA
Meta AI 推出了 LLaMA,这是一组基础语言模型,可以与 GPT-3、Chinchilla 和 PaLM 等现有最佳模型相媲美甚至超越它们。
来源:QudataMeta AI 推出了一系列语言模型——LLaMA
Meta AI 推出了 LLaMA,这是一组基础语言模型,参数范围从 7B 到 65B。据开发人员称,LLaMA 可以与 GPT-3、Chinchilla 和 PaLM 等现有最佳模型相媲美,甚至超越它们。
Meta AI在海量数据基础上训练的大型语言模型 (LLM) 已显示出执行各种任务的能力,从文本摘要、准备文本说明和写诗等基本任务到创建 AI 艺术描述等更复杂的任务。
作为 LLaMA 的训练数据集,开发人员使用了多种来源的混合数据:英语 CommonCrawl、C4、GitHub、Wikipedia、Books、ArXiv 和 Stack Exchange。它涵盖了一系列不同的领域。与 Chinchilla、PaLM 或 GPT-3 不同,LLaMA 仅使用公开可用的数据,使其操作与开源兼容,而大多数现有模型依赖于非公开可用或未记录的数据。
为了提高训练速度,LLaMA 模型使用了因果多头注意运算符的有效实现,从而减少了内存使用量和计算量。 为了进一步提高学习效率,开发人员决定使用检查点作为一种手段来减少在后向传递期间重新计算的激活次数。
与之前的研究相反,Meta 对 LLaMA 的研究表明,仅通过对公开可用的数据进行训练就可以实现最先进的性能,而无需诉诸专有数据集。 开发人员希望将这些模型发布到研究社区将加速大型语言模型的开发,帮助提高其可靠性并减少已知的问题,例如毒性和偏见。
在论文中阅读有关该研究的更多详细信息。
论文