完整的 Hugging Face 教程:如何构建和训练视觉转换器

通过数据集和 transformers 库的动手教程了解 Hugging Face 生态系统。探索如何微调 Vision Transformer (ViT)

来源:AI夏令营

本文是 Hugging Face 生态系统的全面教程。我们将探索 Hugging Face 团队开发的不同库,例如转换器和数据集。我们将了解如何使用它们以最少的样板代码开发和训练转换器。为了更好地阐述基本概念,我们将展示构建和训练 Vision Transformer (ViT) 的整个流程。

我假设您已经熟悉该架构,因此我们不会对其进行过多分析。需要记住的几件事是:

    在 ViT 中,我们将图像表示为一系列补丁。该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。该模型使用带标签的数据集按照完全监督的范式进行训练。它通常在下游数据集上进行微调以进行图像分类。
  • 在 ViT 中,我们将图像表示为一系列补丁。
  • 在 ViT 中,我们将图像表示为一系列的 patch 。

  • 该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。
  • 该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。

  • 该模型使用遵循完全监督范式的标记数据集进行训练。
  • 该模型使用遵循完全监督范式的标记数据集进行训练。

  • 它通常在下游数据集上进行微调以进行图像分类。
  • 它通常在下游数据集上进行微调以进行图像分类。

    如果您对 ViT 架构的整体视图感兴趣,请访问我们之前关于该主题的文章之一:Vision Transformer (ViT) 如何在 10 分钟内工作:一张图片价值 16x16 个字。

    Vision Transformer (ViT) 如何在 10 分钟内工作:一张图片价值 16x16 个字

    来源:Google AI 博客

    来源:Google AI 博客 来源:Google AI 博客

    我们开始吧?

    数据集

    要加载数据集,我们需要导入 load_dataset 函数并加载所需的数据集,如下所示:

    load_dataset 来自 数据集 导入 train_ds ,