使用 Keras 和 TensorFlow 在 R 中实现 LLaMA XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Keras 和 TensorFlow 在 R 中实现 LLaMA

2023年5月25日 00:00 33 Comments

使用 TensorFlow 和 Keras 在 R 中实现和演示大型语言模型 LLaMA。

来源:RStudio AI博客

OpenAI 的 chatGPT 唤醒了人们对大型语言模型 (LLM) 能力的集体意识。随着这种觉醒，每天都会出现大量 LLM 新闻：新产品、新功能、新模型、新功能（以及新担忧）。我们似乎正处于 LLM 和 LLM 驱动工具的寒武纪大爆发的早期阶段；目前尚不清楚 LLM 将如何影响我们的职业和个人生活，但似乎很明显，它们会以某种方式发挥作用。

由于 LLM 将继续存在，因此值得花一些时间从第一原理的角度了解这些模型的工作原理。从机制开始可以帮助培养持久的直觉，这将为我们现在和将来使用这些模型提供指导。（特别是如果未来 LLM 是数据科学家工具箱的主要内容，就像 lm() 函数调用一样常见）。

lm()

还有什么比实践更好的学习方法呢？因此，在这篇文章中，我们将介绍 LLM、LLaMA（Touvron 等人，2023 年）的具体实现，具体来说，是在 TensorFlow 和 Keras 中，目标是先发展理解，再发展能力。

LLaMA (Touvron 等人，2023 年) Touvron 等人，2023 年

为什么是 LLaMA？由于 LLM 相关内容和新闻的数量庞大，知道从哪里开始似乎令人生畏。几乎每周似乎都会宣布一种新模式。浏览一些 LLM 活动中心（HuggingFace、TFHub、reddit、HackerNews）让情况更加混乱。如何选择特定模型？

HuggingFace TFHub reddit HackerNews

在过去几个月的众多与 LLM 相关的新闻中，最引人注目的是 LLaMA 的发布，这是 Meta AI 于 2023 年 2 月向公众提供的现代基础 LLM。在常见基准上，LLaMA 的表现优于 OpenAI 的 GPT-3，同时规模小得多（但仍然很大）。

LLaMA 发布大注意力就是你所需要的一切 (Vaswani 等人 2017) Vaswani 等人2017 “Chinchillacompute-optimum” （Hoffmann 等人，2022） Hoffmann 等人。 2022 单向另一个这里 c

角度 2023 新闻发展 LLM Hoffmann lm OpenAI 功能 Vaswani 模式模型 2017 LLaMA Touvron 寒武纪内容职业提供

使用 Keras 和 TensorFlow 在 R 中实现 LLaMA

其他外部链接

Tags

XiaoMi-AI