由Blip-2和Gemini驱动的多模式搜索引擎代理

这篇文章与Rafael Guedes合着。简介传统模型只能处理单一类型的数据,例如文本,图像或表格数据。多模式是AI研究社区中的一个趋势概念,它指的是模型同时从多种类型的数据中学习的能力。这项新技术(并不是真正的新技术,但是[…]由Blip-2和Gemini提供动力的多模式搜索引擎代理首先出现在数据科学上。

来源:走向数据科学

这篇文章与Rafael Guedes合着。

这篇文章与Rafael Guedes合着。

简介

简介

传统模型只能处理单一类型的数据,例如文本,图像或表格数据。多模式是AI研究社区中的一个趋势概念,它指的是模型同时从多种类型的数据中学习的能力。这项新技术(并不是真正的新技术,但在过去几个月中有了显着改善)具有许多潜在的应用,可以改变许多产品的用户体验。

多模式

一个很好的例子是将来搜索引擎将在将来使用的新方法,用户可以在其中使用模式组合(例如文本,图像,音频等)输入查询。另一个示例可以改善AI驱动的客户支持语音和文本输入的系统。在电子商务中,他们通过允许用户使用图像和文本搜索来增强产品发现。在本文中,我们将使用后者作为案例研究。

Frontier AI研究实验室正在运送几种支持每月多种方式的模型。 OpenAI的剪辑和DALL-E和Salesforce的Blip-2结合了图像和文本。 Meta的ImageBind将多种方式概念扩展到六种模态(文本,音频,深度,热,图像和惯性测量单元)。

在本文中,我们将通过解释其架构,其损失功能的工作方式和培训过程来探索BLIP-2。我们还提出了一种实用的用例,该案例结合了Blip-2和Gemini,以创建一个多模式搜索代理,可以帮助客户根据文本或文本和图像提示来找到最佳的服装。

图1:多模式搜索代理(作者与双子座的图像)
图1:多模式搜索代理(作者与双子座的图像)

与往常一样,代码可在我们的github上使用。

github

BLIP-2:多模型

BLIP-2:多模型 降低计算成本 改善视觉语言对准

架构

架构 Visual 编码器 llm Q-Former