完整的 Hugging Face 教程：如何构建和训练视觉转换器 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

完整的 Hugging Face 教程：如何构建和训练视觉转换器

2021年6月3日 00:00 33 Comments

通过数据集和 transformers 库的动手教程了解 Hugging Face 生态系统。探索如何微调 Vision Transformer (ViT)

来源:AI夏令营

本文是 Hugging Face 生态系统的全面教程。我们将探索 Hugging Face 团队开发的不同库，例如转换器和数据集。我们将了解如何使用它们以最少的样板代码开发和训练转换器。为了更好地阐述基本概念，我们将展示构建和训练 Vision Transformer (ViT) 的整个流程。

我假设您已经熟悉该架构，因此我们不会对其进行过多分析。需要记住的几件事是：

在 ViT 中，我们将图像表示为一系列补丁。该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。该模型使用带标签的数据集按照完全监督的范式进行训练。它通常在下游数据集上进行微调以进行图像分类。

在 ViT 中，我们将图像表示为一系列补丁。

在 ViT 中，我们将图像表示为一系列的 patch 。

该架构类似于著名的“Attention is all you need”论文中的原始 Transformer。

该模型使用遵循完全监督范式的标记数据集进行训练。

它通常在下游数据集上进行微调以进行图像分类。

如果您对 ViT 架构的整体视图感兴趣，请访问我们之前关于该主题的文章之一：Vision Transformer (ViT) 如何在 10 分钟内工作：一张图片价值 16x16 个字。

Vision Transformer (ViT) 如何在 10 分钟内工作：一张图片价值 16x16 个字

来源：Google AI 博客

来源：Google AI 博客 来源：Google AI 博客

我们开始吧？

要加载数据集，我们需要导入 load_dataset 函数并加载所需的数据集，如下所示：

load_dataset 来自数据集导入 train_ds ,

Vision 架构 Transformer 数据集训练 need 需要使用著名的进行 Attention 监督范式模型教程图像表示 ViT 博客