从正则表达式到视觉模型:哪种 RAG 技术适合哪个问题

企业文档智能 [Vol.1 #4] - 对 PDF 和问题的诊断,以及本系列其余部分将涵盖的技术图从正则表达式到视觉模型:哪种 RAG 技术适合哪个问题首先出现在走向数据科学上。

来源:走向数据科学

女士不值得经典剧本。第3条说不存在THE RAG技术。你仍然必须选择一个。本文是告诉您哪一个的诊断。

大多数构建 RAG 系统的团队都会采用相同的剧本:将文档解析成块,嵌入每个块,将它们放入向量存储中,嵌入问题,通过余弦相似度检索 top-k,将结果交给法学硕士。称之为经典的 RAG 剧本。每个教程都会教它。每个演示都在其上运行。

实际问题的差异比剧本所暗示的要大得多。几个真实案例。

三个不同极端的三种情况。

模板化的大容量文件。保险证书、KYC 表格、监管文件、每月经纪报表。相同的软件在每个文档上编写相同的布局。一百行正则表达式可在微秒内提取字段。经典的剧本也在这里运行,但它需要支付法学硕士学位才能免费做布局给你的事情。

跨行业的相同形状:工资存根、银行对账单、实验室测试报告、税务申报、合规证明、来自一个 ERP 的供应商发票。无论一个软件在哪里编写每个文档,布局都是一份合同。

客户服务记录中的讽刺。“在本月的通话录音中找到每一条讽刺言论。”标准情绪评分(愤怒、沮丧、喜悦)很大程度上是通过情绪词典解决的:不可接受、可笑、沮丧,所有标记都清晰可见。讽刺是典型的例外。“哦,很棒的服务,只需要等待 45 分钟”在每个词典上都得分为正,并且嵌入将其与真诚的版本聚集在一起,因为表面单词几乎相同。唯一诚实的方法是法学硕士,完整阅读每个电话并判断所说内容和意思之间的差距。

工程原理图(完全不同的轴)。图纸、图表中数据所在的幻灯片、带有嵌入图像的技术规格。纯文本 RAG 返回标题并错过原理图。视觉模型适合这里,也只适合这里。