详细内容或原文请订阅后点击阅览
在 Amazon SageMaker JumpStart 上微调用于视觉和文本用例的多模态模型
在本文中,我们将展示如何微调文本和视觉模型(例如 Meta Llama 3.2),以便在视觉问答任务中表现更好。Meta Llama 3.2 Vision Instruct 模型在具有挑战性的 DocVQA 视觉问答基准上表现出色。通过利用 Amazon SageMaker JumpStart 的强大功能,我们展示了调整这些生成式 AI 模型以更好地理解和回答有关图像的自然语言问题的过程。
来源:亚马逊云科技 _机器学习在快速发展的 AI 领域,生成模型已成为一种变革性技术,使用户能够探索创造力和解决问题的新领域。这些先进的 AI 系统已经超越了传统的基于文本的功能,现在无缝集成了多模式功能,将其范围扩展到各种应用程序中。模型变得越来越强大,除了文本生成之外,还支持广泛的应用程序。这些模型现在可以创建引人注目的图像,生成引人入胜的摘要,回答复杂的问题,甚至生成代码 - 同时保持高水平的准确性和连贯性。这些多模式功能的集成为企业和个人开启了新的可能性,彻底改变了内容创建、可视化分析和软件开发等领域。
Meta Llama 3.2 Amazon SageMaker JumpStart有关微调 Meta Llama 3.2 Vision 模型的详细演练,请参阅随附的笔记本。
随附笔记本Meta Llama 3.2 多模态和多语言大型语言模型 (LLM) 集合是一系列预先训练和指令调整的生成模型,大小各异。11B 和 90B 模型是多模态的 — 它们支持文本输入/文本输出,以及文本+图像输入/文本输出。
Meta Llama 3.2 11B 和 90B 是首批支持视觉任务的 Llama 模型,其新模型架构将图像编码器表示集成到语言模型中。新模型旨在更有效地处理 AI 工作负载,降低延迟并提高性能,使其适用于广泛的应用。所有 Meta Llama 3.2 模型都支持 128,000 个上下文长度,保持了 Meta Llama 3.1 中引入的扩展令牌容量。此外,该模型还为八种语言提供了改进的多语言支持,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
DocVQA 数据集
Amazon SageMaker图像
元