回答现实世界中的复杂查询,例如复杂的产品搜索,通常需要从涉及非结构化(例如,产品的文本描述)和结构化(例如,产品关系)的半结构知识基础中进行准确检索。但是,许多以前的作品将文本和关系检索任务研究为独立的主题。为了解决差距,我们开发了st a rk,这是一个大规模的SEMI结构检索基准,并在t the t t and t and rational k newledge基础上。我们的基准涵盖了三个领域:产品搜索,学术纸搜索和精密医学的查询。我们设计了一条新颖的管道,以合成现实的用户查询,以整合各种关系信息和复杂的文本属性以及其基础真相(项目)。我们进行严格的人类评估以验证合成查询的质量。我们通过高质量的人类生成的查询进一步增强基准,以提供真实的参考。s rk是一个全面的测试床,用于评估大型语言模型(LLMS)驱动的检索系统的性能。我们的实验表明,ST A RK对当前检索和LLM系统提出了重大挑战,强调了对更有能力的半结构检索系统的需求。
主要关键词