详细内容或原文请订阅后点击阅览
完整的 Hugging Face 教程:如何构建和训练视觉转换器
通过数据集和 transformers 库的动手教程了解 Hugging Face 生态系统。探索如何微调 Vision Transformer (ViT)
来源:AI夏令营本文是 Hugging Face 生态系统的全面教程。我们将探索 Hugging Face 团队开发的不同库,例如转换器和数据集。我们将了解如何使用它们以最少的样板代码开发和训练转换器。为了更好地阐述基本概念,我们将展示构建和训练 Vision Transformer (ViT) 的整个流程。
我假设您已经熟悉该架构,因此我们不会对其进行过多分析。需要记住的几件事是:
- 在 ViT 中,我们将图像表示为一系列补丁。该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。该模型使用带标签的数据集按照完全监督的范式进行训练。它通常在下游数据集上进行微调以进行图像分类。
在 ViT 中,我们将图像表示为一系列的 patch 。
该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。
该模型使用遵循完全监督范式的标记数据集进行训练。
它通常在下游数据集上进行微调以进行图像分类。
如果您对 ViT 架构的整体视图感兴趣,请访问我们之前关于该主题的文章之一:Vision Transformer (ViT) 如何在 10 分钟内工作:一张图片价值 16x16 个字。
Vision Transformer (ViT) 如何在 10 分钟内工作:一张图片价值 16x16 个字来源:Google AI 博客
来源:Google AI 博客 来源:Google AI 博客我们开始吧?
数据集
要加载数据集,我们需要导入 load_dataset 函数并加载所需的数据集,如下所示:
load_dataset
来自
数据集
导入
train_ds
,