源文档的。 此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。 ,2024)。 044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document. 尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。 此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。 060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。 ,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效? 069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。。此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。,2024)。044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document.尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效?069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。071在我们的方法中,大型视觉模型072(VLM)处理单个或多个检索的文档图像,不仅为074产生了对074用户查询的答案,而且还返回了075框架内的相关区域内的相关区域。076如图1所示,此方法通过视觉上指示文档中的确切078位置来启用di-077 rect归因,从而允许用户在080原始上下文中快速检查生成答案的原始上下文中的支持证据。VLMS 081不受文档格式或渲染的限制,082
主要关键词