详细内容或原文请订阅后点击阅览
llava预算:有限资源的多模式AI
让我们开始从多模式开始预算的LLAVA:具有有限资源的多模式AI首先出现在数据科学方面。
来源:走向数据科学在过去的几年中,我主要使用大型语言模型,培训,微调,提示等,因为这是在市场上和用户中高度要求的。但是我相信,主要在文本上工作的LLM只是Genai的开始。在某个时刻,每个人都需要物理AI,模型可以以一种更扎实的人类方式看到,听到,感觉和理由。
物理AI因此,让我们从多模式开始。在此笔记本中,我介绍了Llava,这是一种能够解释图像和文本以生成多模式响应的体系结构。
在本教程中,我们将使用适合在Google Colab等自由层环境上运行笔记本的重量组件。
我们要使用的组件是:
1️⃣剪辑vit b/32作为图像编码
剪辑vit b/322️⃣tinyllama-1.1b作为语言模型
tinyllama-1.1b3️⃣2层MLP适配器桥接两个
2层MLP适配器设置
在我们可以深入了解代码之前,让我们设置环境。
让我们首先安装数据集库。
!PIP install -U数据集
现在,我们需要从拥抱脸部和pytorch中导入所需的软件包。这些进口提供了用于多模式处理的预训练模型和实用程序。
import jsonfrom pathlib import Pathimport requestsimport safetensorsimport torchfrom datasets import load_datasetfrom huggingface_hub import hf_hub_downloadfrom PIL import Imagefrom transformers import ( AutoConfig, AutoTokenizer, LlamaTokenizer, LlavaConfig, LlavaForConditionalGeneration, LlavaProcessor, seq2seqtrainer,seq2seqtrainingarguments,)来自trransformers.models.models.models.modeling_clip import clipvisionmodelfrom trransformers.models.models.clip.image.image_processing_clip import import import import import clipimageprocessor
下载预训练的模型组件
我们的LLAVA模型将由:
https://arxiv.org/pdf/2103.00020
HF_HUB_DOWNLOAD
模型夹子vit l/14