问题解析器从用户字符串中提取什么:关键字、范围、形状、分解、说明

企业文档智能 [Vol.1 #6b] - 解析器直接从用户的问题中读取五个字段系列,并使用填充每个字段的代码帖子“问题解析器从用户字符串中提取的内容:关键字、范围、形状、分解、澄清”首先出现在走向数据科学上。

来源:走向数据科学

是企业文档智能问题解析模块的一部分,该系列由四个模块构建企业 RAG 系统:解析、问题解析、检索和生成。第 6_a 条(论文)阐述了解析问题的理由,并显示了解析后的行分成的两个消费者简介。本文介绍了解析器从用户字符串中提取的内容:关键字、预期答案的形状和类型、范围提示、复合问题的分解以及过于模糊而无法采取行动的输入的澄清字段。第 6c 条(调度)涵盖了解析器使用文档的配置文件在这些字段之上做出的决定。

用户键入一个字符串。“最大承保金额是多少?不要将其与免赔额混淆,它们通常一起列出。”解析器将其转换为一行键入的列:主题、预期答案形状(金额)、范围提示(此合同)、路由到生成摘要的负面提示(不是免赔额)以及检索可以使用的布局提示(通常一起列出)。每个部分都成为 Question_df 上自己的专栏。本文一次遍历五个字段族,并提供填充每个字段族的代码以及保存该字段族的类型化架构。

1. 解析器填充的五个字段族

问题不仅仅是它的言语。它还告诉您答案应该采取什么形式,在文档中查找哪里,是否是复杂的或太模糊而无法采取行动。解析器捕获其中的每一个并将其写入 Question_df 上的列。将本文的其余部分作为可用内容的菜单来阅读,而不是作为清单。

这些列分为两组。

解析器从问题本身读取的内容。

  • 关键字:用于提要检索的标记。多种来源结合在一起:显式(用户命名)、直接(从问题中提取)、LLM 重写、专家概念字典以及 L131-1 等高信号正则表达式锚点。
  • 范围:在文档中查看的位置:页面、章节、部分、布局(表格/图像)、日期范围、管辖范围。