详细内容或原文请订阅后点击阅览
使用 Keras 和 TensorFlow 在 R 中实现 LLaMA
使用 TensorFlow 和 Keras 在 R 中实现和演示大型语言模型 LLaMA。
来源:RStudio AI博客OpenAI 的 chatGPT 唤醒了人们对大型语言模型 (LLM) 能力的集体意识。随着这种觉醒,每天都会出现大量 LLM 新闻:新产品、新功能、新模型、新功能(以及新担忧)。我们似乎正处于 LLM 和 LLM 驱动工具的寒武纪大爆发的早期阶段;目前尚不清楚 LLM 将如何影响我们的职业和个人生活,但似乎很明显,它们会以某种方式发挥作用。
由于 LLM 将继续存在,因此值得花一些时间从第一原理的角度了解这些模型的工作原理。从机制开始可以帮助培养持久的直觉,这将为我们现在和将来使用这些模型提供指导。(特别是如果未来 LLM 是数据科学家工具箱的主要内容,就像 lm() 函数调用一样常见)。
lm()
还有什么比实践更好的学习方法呢?因此,在这篇文章中,我们将介绍 LLM、LLaMA(Touvron 等人,2023 年)的具体实现,具体来说,是在 TensorFlow 和 Keras 中,目标是先发展理解,再发展能力。
LLaMA (Touvron 等人,2023 年) Touvron 等人,2023 年为什么是 LLaMA?由于 LLM 相关内容和新闻的数量庞大,知道从哪里开始似乎令人生畏。几乎每周似乎都会宣布一种新模式。浏览一些 LLM 活动中心(HuggingFace、TFHub、reddit、HackerNews)让情况更加混乱。如何选择特定模型?
HuggingFace TFHub reddit HackerNews在过去几个月的众多与 LLM 相关的新闻中,最引人注目的是 LLaMA 的发布,这是 Meta AI 于 2023 年 2 月向公众提供的现代基础 LLM。在常见基准上,LLaMA 的表现优于 OpenAI 的 GPT-3,同时规模小得多(但仍然很大)。
LLaMA 发布 大 注意力就是你所需要的一切 (Vaswani 等人 2017) Vaswani 等人2017 “Chinchillacompute-optimum” (Hoffmann 等人,2022) Hoffmann 等人。 2022 单向 另一个 这里 c