大型语言模型(LLM)在跨领域表现出色,在医学评估基准(例如MEDQA)上也提供了显着的表现。但是,在现实世界中医学场景中,报告的性能与实际有效性之间仍然存在显着差距。在本文中,我们旨在通过采用多方面的检查模式来系统地探索当前LLM的实际掌握医学知识的掌握,以探讨这一差距的原因。具体而言,我们开发了一种新颖的评估框架多叶序,以检查LLM在多个方面的编码和掌握医学知识中的范围和覆盖范围。基于多叶术框架,我们构建了两个多方面的评估数据集:Multidisek(通过从临床疾病知识库中产生问题)和MultiMEDQA(通过将Medical Benchmark MedQA从Medical Benchmark MedQa重新提出每个问题,以进行多方面的问题)。这些模拟数据集的实验结果表明,掌握医学知识的当前LLM的程度远低于其在现有医疗基准上的表现,这表明它们缺乏深度,预见和在掌握知识中的全面性。因此,当前的LLM尚未准备好在现实世界中的任务中应用。代码和数据集可在https://github.com/thumlp/multifaceteval上找到。
简介:采用高级推理模型,例如Chatgpt O1和DeepSeek-R1,代表了临床决策支持的重要一步,尤其是在儿科中。Chatgpt O1采用“经过思考的推理”(COT)来增强结构性解决问题,而DeepSeek-R1通过强化学习引入自我反思能力。本研究旨在评估使用MEDQA数据集中这些模型在儿科场景中这些模型的诊断准确性和临床实用性。材料和方法:将MEDQA数据集中的500个多项选择儿科问题提交给Chatgpt O1和DeepSeek-R1。每个问题都包含四个或更多选项,并带有一个正确的答案。在均匀条件下评估了模型,其性能指标在内,包括准确性,Cohen's Kappa以及用于评估一致性和统计显着性的卡方检验。的响应以确定模型在解决临床问题时的有效性。结果:Chatgpt O1达到了92.8%的诊断精度,大大优于DeepSeek-R1,得分为87.0%(P <0。00001)。Chatgpt O1使用的COT推理技术允许更结构化和可靠的响应,从而降低了错误的风险。相反,DeepSeek-r1虽然精确略低,但由于其开源性质和新兴的自我反射能力,表现出了出色的可访问性和适应性。Cohen的Kappa(K = 0.20)表示模型之间的一致性较低,反映了它们的独特推理策略。结论:这项研究强调了Chatgpt O1在提供准确且连贯的临床推理方面的优势,使其非常适合关键的儿科场景。DeepSeek-r1具有其灵活性和可访问性,仍然是资源有限设置中的宝贵工具。将这些模型结合在整体系统中可以利用其互补优势,从而在各种临床环境下优化决策支持。有必要进行进一步的研究,以探索其整合到多学科护理团队中,并在现实世界中的临床环境中进行应用。