Loading...
机构名称:
¥ 1.0

项目描述。大型语言模型(LLMS)的令人印象深刻的成功引发了管理多种方式以外的多种方式的需求。结果,已经出现了大型多模型(LMM),例如GPT-4V,GEMINI,DEEPSEEK-VL和QWEN2-VL。这些模型可以理解涉及视觉和语言的说明并采取行动,即,它们使用户能够上传图像并与LLM讨论。原则上,多模式变压器(例如剪辑和碎片)旨在处理文本和图像输入。这些模型在关节空间中处理视觉和文本数据。这使他们可以理解文本并将其连接到视觉表示。一般框架如下:i)图像特征首先是通过视觉变压器(例如VIT)提取的,该vit将视觉数据转换为嵌入,ii)文本输入由语言模型处理,该模型将文本模型转换为自己的嵌入,然后iiii iii)通过共享的变压器结构或通过交叉说明机构将两个嵌入式处理在一起。但是,有一些架构细节将这些模型彼此区分。

LLMS中的图像理解

LLMS中的图像理解PDF文件第1页

LLMS中的图像理解PDF文件第2页

相关文件推荐

2024 年
¥2.0