Eliciting In-context Retrieval and Reasoning for Long-Context Language Models
长篇文化语言模型(LCLM)的最新进展有可能通过简化管道来转换检索功能的生成(RAG)。借助其扩展的上下文窗口,LCLM可以处理整个知识库并直接处理检索和推理。此功能定义为在文本检索和推理(ICR2)。但是,像Loft这样的现有基准通常高估了LCLM的性能,因为它们缺乏足够挑战性的环境。为了解决这个问题,我们介绍了ICR2,这是一种旨在更现实的LCLMS评估和培训的基准。这个…