详细内容或原文请订阅后点击阅览
您的块在生产中未通过 RAG
上游决策没有模型,一旦你弄错了,LLM 就可以修复你的块在生产中失败了你的 RAG 帖子首先出现在走向数据科学上。
来源:走向数据科学我们发布了内部知识库的第一个版本,我收到了合规团队同事发来的 Slack 消息。她向系统询问了我们的承包商入职流程。答案是自信的、结构良好的,但在合规工作中最重要的方面却是错误的:它描述了一般流程,但遗漏了适用于受监管项目承包商的例外条款。
文档中存在例外情况。它已被摄入。嵌入模型已对其进行编码。如果有合适的背景,法学硕士会毫不犹豫地处理它。但检索系统从未将其浮出水面,因为包含该例外的块已在一般规则结束和资格开始的段落边界处被分割。
我记得打开块日志并盯着两个连续的记录。第一个在争论中结束:“承包商遵循第 4 节中描述的标准入职流程……”第二个开始的方式在没有前一个的情况下毫无意义:“……除非从事附件 B 下分类的项目,在这种情况下……”。每个块单独来说都是一个片段。它们共同包含了一条完整的、关键的信息。单独而言,两者都无法以任何有意义的方式检索。
在我们的测试查询中,管道看起来很好。管道不太好。
在那一刻,合规性 Slack 消息和块日志并排打开,我不再将分块视为配置细节,而是开始将其视为堆栈中最重要的设计决策。接下来的一切都是我之后学到的,按照我学习的顺序。
这是我发现的内容以及我是如何找到它的。
