详细内容或原文请订阅后点击阅览
利用多模态大型语言模型 (MLLM) 彻底改变人工智能
假设你有一份 X 光检查报告,你需要了解自己受了什么伤。一种选择是去看医生,理想情况下你应该去看医生,但出于某种原因,如果你不能去看医生,你可以使用多模态大型语言模型 (MLLM),它将处理你的 X 光扫描并准确地告诉你你受了什么伤 […]
来源:Shaip 博客假设你有一份 X 光检查报告,你需要了解自己受了什么伤。一种选择是去看医生,理想情况下你应该去看医生,但是由于某种原因,如果你不能去看医生,你可以使用多模态大型语言模型 (MLLM),它将处理你的 X 光扫描并根据扫描结果准确地告诉你你受了什么伤。
简单来说,MLLM 只不过是文本、图像、语音、视频等多种模型的融合,它们不仅能够处理普通的文本查询,还可以处理图像和声音等多种形式的问题。
因此,在本文中,我们将带您了解 MLLM 是什么、它们如何工作以及您可以使用的顶级 MMLM 是什么。
什么是多模态 LLM?
与只能处理一种类型数据(主要是文本或图像)的传统 LLM 不同,这些多模态 LLM 可以处理多种形式的数据,类似于人类同时处理视觉、语音和文本的方式。
多模态 AI 的核心是接收各种形式的数据,例如文本、图像、音频、视频甚至传感器数据,以提供更丰富、更复杂的理解和交互。考虑一个 AI 系统,它不仅可以查看图像,还可以描述图像、理解上下文、回答有关图像的问题,甚至根据多种输入类型生成相关内容。
现在,让我们以 X 射线报告为例,说明多模态 LLM 如何理解其上下文。这是一个简单的动画,解释了它如何首先通过图像编码器处理图像以将图像转换为矢量,然后使用经过医学数据训练的 LLM 来回答查询。
来源:Google 多模态医疗 AI
来源: Google 多模态医疗 AI Google 多模态医疗 AI多模态 LLM 如何工作?
虽然多模态 LLM 的内部工作原理相当复杂(比 LLM 更复杂),但我们尝试将其分解为六个简单步骤:
步骤 1:输入收集 步骤 2:标记化 – 步骤 3:嵌入层 –