抹布解释:了解嵌入,相似性和检索

让我们仔细研究一下检索机制的工作原理如何解释:理解嵌入,相似性和检索首先出现在数据科学上。

来源:走向数据科学

,我使用OpenAI的API,Langchain和本地文件构建了简单的RAG管道,并有效地构成了大型文本文件。这些帖子涵盖了设置RAG管道,能够根据本地文件的内容生成响应的基础。

构建简单的抹布管道 有效地构成大型文本文件
作者的图像

因此,到目前为止,我们已经讨论了从存储的任何地方阅读文档,将它们分成文本块,然后为每个块创建一个嵌入。之后,我们以某种方式神奇地选择了适合用户查询并生成相关响应的嵌入。但是,重要的是要进一步了解抹布的检索步骤实际上是如何工作的。

因此,在这篇文章中,我们将仔细研究检索机制的工作原理并更详细地进行分析,从而进一步迈出一步。就像我上一篇文章一样,我将以战争与和平文字为例,被许可为公共领域,并可以通过Gutenberg项目轻松访问。

战争与和平 gutenberg项目

嵌入呢?

为了了解RAG框架的检索步骤如何工作,首先了解文本如何在嵌入中进行转换和表示至关重要。为了使LLMS处理任何文本,它必须是向量的形式,并且要执行此转换,我们需要使用嵌入模型。

嵌入是捕获其语义含义的数据的向量表示(在我们的情况下)。原始文本的每个单词或句子都映射到高维矢量。用于执行此转换的嵌入模型的设计方式是,相似的含义会导致向量在矢量空间中彼此接近的向量。例如,“快乐和快乐”一词的矢量在向量空间中彼此接近,而sad词的向量将远离它们。

快乐 快乐 sad bert gpt 单词嵌入 Word2Vec 手套 上下文嵌入 河岸 👉