使用 torch 从头开始构建 GPT-2 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 torch 从头开始构建 GPT-2

2023年6月20日 00:00 33 Comments

从头开始实现语言模型可以说是准确了解其引擎工作原理的最佳方式。在这里，我们使用 torch 来编码 GPT-2，这是原始 GPT 的直接后继者。最后，您将处理一个 R 原生模型，该模型可以直接使用 Hugging Face 的预训练 GPT-2 模型权重。

来源:RStudio AI博客

无论您对大型语言模型 (LLM) 有何看法 - 它们有益吗？危险吗？还是像加密一样昙花一现？ - 它们现在就在这里。这意味着，了解（在需要自己决定的层面上）它们的工作原理是一件好事。同一天，我发布了《什么是大型语言模型？它们不是什么？》，面向更广泛的受众。在这篇文章中，我想向深度学习从业者介绍 GPT-2（Radford 等人，2019 年）的火炬实现，这是 OpenAI 在越来越庞大的文本语料库上训练的一系列越来越大的模型中的第二个。您会发现完整的模型实现只需不到 250 行 R 代码。

这里现在什么是大型语言模型？它们不是什么？ torch (Radford 等人，2019) Radford 等人，2019

来源、资源

我将要展示的代码位于 minhub 存储库中。这个存储库值得一提。正如 README 中所强调的那样，

minhub minhub

minhub 是受 minGPT 启发的深度学习模型的最小实现集合。所有模型都设计为自包含、单文件且没有外部依赖项，因此易于复制并集成到您自己的项目中。

minhub 是受 minGPT 启发的深度学习模型的最小实现集合。所有模型都设计为独立的、单文件的，并且没有外部依赖，因此很容易复制并集成到您自己的项目中。

minhub minGPT

显然，这使它们成为极好的学习材料；但这还不是全部。模型还可以选择从 Hugging Face 的模型中心加载预先训练的权重。如果这还不够方便，您不必担心如何正确进行标记化：只需从 Hugging Face 下载匹配的标记器即可。我将在本文的最后一部分展示它的工作原理。如 minhub README 中所述，这些功能由 hfhub 和 tok 包提供。

模型中心最后一部分 minhub $

学习自己的深度 2019 实现 Radford 训练的需要了解 minGPT 受众中心展示 minhub 模型工作原理集成模型的 README