机构名称:
¥ 2.0
它涉及将数据分解为可消化的部分,并仅将最相关的块发送给模型。这样,我们就能得到想要的精确见解。块大小决定了应该使用什么嵌入模型。对于我们的 POC,我们使用大块大小和前 k 个检索到的块以及一系列块大小(我们从 512 或 1024 个标记开始探索),以限制我们可以输入到 LLM 中的数据量。在各种分块方法中,我们使用可变大小分块,因为我们需要完整的文本或段落和更大的块。可变分块通过保留句子结构来实现这一点,从而产生更好的结果。它将根据内容特征(例如句末标点符号、行末标记、标题等)对 SOP 进行划分。