背景:大型语言模型 (LLM) 在处理临床信息方面表现出了先进的性能。然而,市面上可用的 LLM 缺乏专业的医学知识,仍然容易产生不准确的信息。鉴于糖尿病需要自我管理,患者通常会在网上寻求信息。我们引入了检索增强信息系统 (RISE) 框架,并评估了其在增强 LLM 以准确响应糖尿病相关咨询方面的性能。目的:本研究旨在评估 RISE 框架(一种信息检索和增强工具)在提高 LLM 性能以准确安全地响应糖尿病相关咨询方面的潜力。方法:RISE 是一种创新的检索增强框架,包括 4 个步骤:重写查询、信息检索、总结和执行。使用一组 43 个常见的糖尿病相关问题,我们分别评估了 3 个基础 LLM(GPT-4、Anthropic Claude 2、Google Bard)及其 RISE 增强版本。临床医生评估准确性和全面性,患者评估可理解性。结果:RISE 的整合显著提高了所有 3 个基本 LLM 的回答的准确性和全面性。平均而言,使用 RISE 后,准确回答的百分比增加了 12% (15/129)。具体而言,GPT-4 的准确回答率增加了 7% (3/43),Claude 2 的准确回答率增加了 19% (8/43),Google Bard 的准确回答率增加了 9% (4/43)。该框架还提高了回答的全面性,平均分数提高了 0.44(SD 0.10)。可理解性也平均提高了 0.19(SD 0.13)。数据收集时间为 2023 年 9 月 30 日至 2024 年 2 月 5 日。结论:RISE 显著提高了 LLM 在回答糖尿病相关询问方面的表现,提高了准确性、全面性和可理解性。这些改进对于RISE未来在患者教育和慢性病自我管理方面的作用具有重要意义,有助于缓解医疗资源压力并提高公众对医学知识的认识。
主要关键词