RAG Is Burning Money — I Built a Cost Control Layer to Fix It
大多数 RAG 系统都是针对答案质量而不是成本进行优化的,而盲点的成本很快就会变得昂贵。在本文中,我分解了一个结合了语义缓存、查询路由、令牌预算和熔断的生产就绪成本控制层,在不牺牲答案质量的情况下实现了 LLM 成本降低 85%。 帖子《RAG 正在烧钱 — 我构建了一个成本控制层来修复它》首先出现在《走向数据科学》上。
RAG Is Blind to Time — I Built a Temporal Layer to Fix It in Production
测试三周后,一名学习者告诉我,我的人工智能导师给了她错误的答案。并不是明显错误 - 只是过时到足以误导。就在那一刻,我意识到大多数 RAG 系统都悄悄忽略了一些事情:它们没有时间观念。我的系统检索到最相似的文档,而不是最新的文档。在不断变化的知识库中,这是一个严重的缺陷。修复方法不在检索器或模型中。它就在它们之间的间隙中。我构建了一个时间层,可以过滤过期的事实,增强对时间敏感的信号,并使系统更喜欢仍然真实的内容,而不仅仅是匹配的内容。文章《RAG 对时间视而不见——我构建了一个时间层来在生产中修复它》首先出现在《走向数据科学》上。