Hugging Face 集成

Hugging Face 迅速成为一个非常受欢迎的平台,用于构建、共享和协作深度学习应用程序。我们致力于将 Torch for R 生态系统与 Hugging Face 工具集成,允许用户从他们的平台加载和执行语言模型。

来源:RStudio AI博客

我们很高兴地宣布 hfhub 和 tok 的首批发布现已在 CRAN 上发布。hfhub 是 Hugging Face Hub 的 R 接口,允许用户从 Hugging Face Hub 下载和缓存文件,而 tok 为 Hugging Face tokenizers 库实现 R 绑定。

hfhub tok Hugging Face Hub Hugging Face tokenizers

Hugging Face 迅速成为构建、共享和协作深度学习应用程序的平台,我们希望这些集成将帮助 R 用户开始使用 Hugging Face 工具以及构建新颖的应用程序。

Hugging Face

我们之前还宣布了 safetensors 包,允许以 safetensors 格式读取和写入文件。

安全张量

hfhub

hfhub 是 Hugging Face Hub 的 R 接口。hfhub 目前只实现了一个功能:从 Hub 存储库下载文件。模型中心存储库主要用于存储预训练模型权重以及加载模型所需的任何其他元数据,例如超参数配置和标记器词汇表。

下载的文件使用与 Python 库相同的布局进行缓存,因此缓存的文件可以在 R 和 Python 实现之间共享,从而更轻松、更快速地在语言之间切换。

我们已经在 minhub 包和“使用 torch 从头开始​​构建 GPT-2”博客文章中使用 hfhub 从 Hugging Face Hub 下载预训练权重。

minhub ‘使用 torch 从头开始​​构建 GPT-2’ 博客文章

您可以使用 hub_download() 从 Hugging Face Hub 存储库下载任何文件,方法是指定存储库 ID 和要下载的文件路径。如果文件已在缓存中,则该函数立即返回文件路径,否则将下载、缓存文件,然后返回访问路径。

hub_download()
路径 <- hfhub::hub_download("gpt2", "model.safetensors")路径号> /Users/dfalbel/.cache/huggingface/hub/models--gpt2/snapshots/11c5a3d5811f50298f278a704980280950aedb10/model.safetensors
路径 <- hfhub::hub_download("gpt2", "model.safetensors") <- :: <-