背景和意义生成AI(GAI)系统正在为广泛的医疗保健用例部署,包括临床决策支持,行政任务,医学教育和医学研究应用程序[1]。虽然GAI技术提供了有前途的能力,但它们在医疗保健中的利用带来了重大风险,对患者的安全产生了影响[2-3]。为了实际解决安全问题,同时保持GAI在医疗保健中的益处,技术方法已经发展到了使用独立的大语言模型(LLMS)以将控制和护栏纳入复杂,可验证的系统中。检索功能生成(RAG)代表一种这样的方法,通过将策划内容的响应扎根[4-5],从而在医疗保健实施中提供了有希望的降低风险。通过这种体系结构,与独立的LLM相比,索引基于证据的来源时,抹布系统可以减少幻觉和不准确的产出,从而证明了事实,完整性和引文准确性的提高[4-5]。尽管如此,幻觉 - 模型输出内容缺乏事实基础或与已建立的证据相矛盾的发生的情况非常具有挑战性,可以完全挑战,而不会损害整体绩效[6-7]。即使有了这些建筑改进,可靠评估方法的实际应用对于量化临床使用中的潜在风险仍然至关重要。医疗保健GAI系统的评估方法在方法论和严格方面差异很大。尽管文本复杂度量(例如BLEU,Rouge和Helm)和传统的统计措施已被广泛用于评估LLM生成的文本的质量[8-13],但这些指标主要衡量与参考的文本重叠程度,并不能完全捕获开放式,创造性的输出可以产生llms的创作能力。生成模型可以使用与参考有很大不同的措辞或结构正确传达信息,或者它们可以自信地提供合理的声音,但实际上是不正确的细节。因此,单独的文本比较指标无法充分评估LLM的自由形式反应在临床上是否准确,也无法可靠地评估医疗保健环境中的有用性[14]。这一限制促使人们广泛采用了人类评估方法,如Chow Tam对142项研究的荟萃分析所证明的那样,采用人类评估者评估临床适当性[11]。对研究医疗保健中的破布实施的37项研究的系统评价确定了人类和自动化方法的关键评估维度,包括准确性/正确性,完整性,忠诚/一致性,相关性和流利性[7]。随后对2018 - 2024年人类评估研究的综述确定了评估医疗保健LLM的安全性,可靠性和有效性的关键主题[11]。这些基本评估维度是通过在成对人类评估方法中检查了九个特定方面的前面工作,包括准确性,正确性,适当性和安全性[15]。WEI对评估GAI对临床问题的反应的医学专业人员的系统评价和荟萃分析[12]表明,尽管准确性和正确性是一致的主题,但测量方法在不同的Likert量表和评分系统中都有不同。尽管为医疗保健中GAI工具的人体评估维度而出现了共同的主题,但特定定义,实施方法和评分方法仍存在显着差异。这种方法学变化给寻求清晰的操作模型评估和监视GAI Systems
主要关键词