llava预算:有限资源的多模式AI

让我们开始从多模式开始预算的LLAVA:具有有限资源的多模式AI首先出现在数据科学方面。

来源:走向数据科学

在过去的几年中,我主要使用大型语言模型,培训,微调,提示等,因为这是在市场上和用户中高度要求的。但是我相信,主要在文本上工作的LLM只是Genai的开始。在某个时刻,每个人都需要物理AI,模型可以以一种更扎实的人类方式看到,听到,感觉和理由。

物理AI

因此,让我们从多模式开始。在此笔记本中,我介绍了Llava,这是一种能够解释图像和文本以生成多模式响应的体系结构。

在本教程中,我们将使用适合在Google Colab等自由层环境上运行笔记本的重量组件。

我们要使用的组件是:

1️⃣剪辑vit b/32作为图像编码

剪辑vit b/32

2️⃣tinyllama-1.1b作为语言模型

tinyllama-1.1b

3️⃣2层MLP适配器桥接两个

2层MLP适配器
来自纸张视觉教学调整(Neurips 2023)
视觉说明调整

设置

在我们可以深入了解代码之前,让我们设置环境。

让我们首先安装数据集库。

!PIP install -U数据集

现在,我们需要从拥抱脸部和pytorch中导入所需的软件包。这些进口提供了用于多模式处理的预训练模型和实用程序。

import jsonfrom pathlib import Pathimport requestsimport safetensorsimport torchfrom datasets import load_datasetfrom huggingface_hub import hf_hub_downloadfrom PIL import Imagefrom transformers import (    AutoConfig,    AutoTokenizer,    LlamaTokenizer,    LlavaConfig,    LlavaForConditionalGeneration,    LlavaProcessor, seq2seqtrainer,seq2seqtrainingarguments,)来自trransformers.models.models.models.modeling_clip import clipvisionmodelfrom trransformers.models.models.clip.image.image_processing_clip import import import import import clipimageprocessor

下载预训练的模型组件

我们的LLAVA模型将由:

图像来源:https://arxiv.org/pdf/2103.00020
https://arxiv.org/pdf/2103.00020 HF_HUB_DOWNLOAD 模型 夹子vit l/14 https://arxiv.org/pdf/2103.00020

HF_HUB_DOWNLOAD

模型 夹子vit l/14