为您的生成 AI 用例选择正确的向量嵌入模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为您的生成 AI 用例选择正确的向量嵌入模型

2024年3月7日 15:33 33 Comments

在构建 RAG 应用程序时，我们经常需要选择向量嵌入模型，这是许多生成式 AI 应用程序的关键组件。了解更多文章“为您的生成式 AI 用例选择合适的向量嵌入模型”首先出现在 DataRobot AI 平台上。

来源:DataRobot博客

在我们之前的帖子中，我们讨论了为假设的检索增强生成 (RAG) 用例选择向量数据库的注意事项。但是在构建 RAG 应用程序时，我们经常需要做出另一个重要决定：选择向量嵌入模型，这是许多生成式 AI 应用程序的关键组件。

我们之前的帖子

向量嵌入模型负责将非结构化数据（文本、图像、音频、视频）转换为数字向量，以捕获数据对象之间的语义相似性。嵌入模型广泛用于 RAG 应用程序之外，包括推荐系统、搜索引擎、数据库和其他数据处理系统。

了解它们的用途、内部结构、优点和缺点至关重要，这就是我们今天要介绍的内容。虽然我们只讨论文本嵌入模型，但其他类型非结构化数据的模型的工作原理类似。

什么是嵌入模型？

机器学习模型不直接处理文本，它们需要数字作为输入。由于文本无处不在，随着时间的推移，ML 社区开发了许多解决方案来处理从文本到数字的转换。有许多不同复杂程度的方法，但我们只回顾其中的一些。

一个简单的例子是独热编码：将文本中的单词视为分类变量，并将每个单词映射到 0 和单个 1 的向量。

独热编码

不幸的是，这种嵌入方法不太实用，因为它会导致大量独特的类别，并在大多数实际情况下导致输出向量的维度难以管理。此外，独热编码不会将相似的向量在向量空间中彼此更接近。

投影到 2D 轴上的词嵌入

投影到 2D 轴上的词嵌入 句子嵌入模型

一个好的嵌入模型应该：

速度快，因为它通常只是大型应用程序中的一个预处理步骤

速度快 可管理的维度

向量投影 2D 轴上数字导致速度快应用程序选择维度嵌入模型独热 RAG 文本