启发长篇小说语言模型的文本检索和推理

长篇文化语言模型(LCLM)的最新进展有可能通过简化管道来转换检索功能的生成(RAG)。借助其扩展的上下文窗口,LCLM可以处理整个知识库并直接处理检索和推理。此功能定义为在文本检索和推理(ICR2)。但是,像Loft这样的现有基准通常高估了LCLM的性能,因为它们缺乏足够挑战性的环境。为了解决这个问题,我们介绍了ICR2,这是一种旨在更现实的LCLMS评估和培训的基准。这个…

来源:Apple机器学习研究

长篇文化语言模型(LCLM)的最新进展有可能通过简化管道来转换检索功能的生成(RAG)。借助其扩展的上下文窗口,LCLM可以处理整个知识库并直接处理检索和推理。此功能定义为在文本检索和推理(ICR2)。但是,像Loft这样的现有基准通常高估了LCLM的性能,因为它们缺乏足够挑战性的环境。为了解决这个问题,我们介绍了ICR2,这是一种旨在更现实的LCLMS评估和培训的基准。该数据集通过包括使用强猎犬检索的混淆文档来模拟实用方案。此外,我们提出了提高LCLM性能的方法:(1)检索到生成的微调,(2)与一代人共同训练的检索头的明确建模,以及(3)检索过程中使用的解码,该解码使用注意力头来过滤和完善较长的环境。通过在Loft和ICR2上对四个知名的LCLM进行广泛的基准测试,我们表明,适用于Mistral-7b的最佳方法可取得重大改进:与零散布的垃圾和零量的抹布和零蛋白的监督型型号相比,Loft上的+17和+15在Loft上以及ICR2上的+13和+2。尽管型号尺寸要小得多,但在大多数任务上的表现甚至超过了GPT-4。

    **在Apple†爱丁堡大学完成的工作
  • **在Apple
  • †爱丁堡大学