Loading...
机构名称:
¥ 1.0

人工智能(AI)越来越多地在现代医学中起着至关重要的作用,尤其是在临床决策支持中。本研究比较了两个OpenAI推理模型O3-Mini和O3-Mini-High的性能,以回答从MEDQA-USMLE数据集中得出的900个小儿临床问题。评估的重点是确定其在小儿诊断和治疗决策中的有效性的准确性,响应时间和一致性。结果表明,与O3-Mini相比,O3-Mini-High的精度更高(90.55%比88.3%)和更快的响应时间(64.63秒对71.63秒)。卡方检验证实了这些差异在统计上是显着的(x²= 328.9675,p <0。00001))。错误分析表明,O3-Mini-High纠正了O3-Mini的错误,反之亦然,但两种模型都共享了61个常见错误,这表明训练数据或模型体系结构中的固有局限性。此外,还考虑了模型之间的可访问性差异。虽然在先前的研究中对DeepSeek-R1进行了评估,但提供了不受限制的免费访问,Openai的O3模型具有消息限制,可能会影响其在资源受限环境中的适用性。未来的改进应旨在减少共享错误,在保持效率的同时优化O3-Mini的准确性,并提高O3-Mini-High以提高性能。实施一种利用这两种模型优势的合奏方法可以提供更强大的AI驱动临床决策支持系统,尤其是在时间敏感的儿科场景中,例如紧急护理和新生儿重症监护病房。

评估小儿医学中的AI推理模型

评估小儿医学中的AI推理模型PDF文件第1页

评估小儿医学中的AI推理模型PDF文件第2页

评估小儿医学中的AI推理模型PDF文件第3页

评估小儿医学中的AI推理模型PDF文件第4页

评估小儿医学中的AI推理模型PDF文件第5页

相关文件推荐

2024 年
¥4.0
1900 年
¥4.0