详细内容或原文请订阅后点击阅览
由Blip-2和Gemini驱动的多模式搜索引擎代理
这篇文章与Rafael Guedes合着。简介传统模型只能处理单一类型的数据,例如文本,图像或表格数据。多模式是AI研究社区中的一个趋势概念,它指的是模型同时从多种类型的数据中学习的能力。这项新技术(并不是真正的新技术,但是[…]由Blip-2和Gemini提供动力的多模式搜索引擎代理首先出现在数据科学上。
来源:走向数据科学这篇文章与Rafael Guedes合着。
这篇文章与Rafael Guedes合着。简介
简介传统模型只能处理单一类型的数据,例如文本,图像或表格数据。多模式是AI研究社区中的一个趋势概念,它指的是模型同时从多种类型的数据中学习的能力。这项新技术(并不是真正的新技术,但在过去几个月中有了显着改善)具有许多潜在的应用,可以改变许多产品的用户体验。
多模式一个很好的例子是将来搜索引擎将在将来使用的新方法,用户可以在其中使用模式组合(例如文本,图像,音频等)输入查询。另一个示例可以改善AI驱动的客户支持语音和文本输入的系统。在电子商务中,他们通过允许用户使用图像和文本搜索来增强产品发现。在本文中,我们将使用后者作为案例研究。
Frontier AI研究实验室正在运送几种支持每月多种方式的模型。 OpenAI的剪辑和DALL-E和Salesforce的Blip-2结合了图像和文本。 Meta的ImageBind将多种方式概念扩展到六种模态(文本,音频,深度,热,图像和惯性测量单元)。
在本文中,我们将通过解释其架构,其损失功能的工作方式和培训过程来探索BLIP-2。我们还提出了一种实用的用例,该案例结合了Blip-2和Gemini,以创建一个多模式搜索代理,可以帮助客户根据文本或文本和图像提示来找到最佳的服装。
与往常一样,代码可在我们的github上使用。
github