背景和目标:研究人员通常使用自动解决方案,例如自然语言处理(NLP)系统来从大量非结构化数据中提取临床信息。然而,临床文本的语义结构和域特异性词汇量很差,可以使开发单一适合所有解决方案变得具有挑战性。大语言模型(LLM),例如OpenAI的生成预训练的变压器3(GPT-3),为捕获和标准化非结构化临床信息提供了有希望的解决方案。这项研究评估了教学的性能,该指令(一种来自LLM GPT-3的模型家族)从医疗案例报告中提取相关的患者信息,并讨论了LLMS与专用NLP方法的优点和缺点。方法:在本文中,通过搜索PubMed,Scopus和Web of Science确定了与儿童外国身体伤害病例报告有关的208篇文章。一名审稿人手动提取有关性别,年龄,造成伤害的物体的信息以及为每个患者构建金标准以比较指令的性能的受伤身体部位。结果:指令gpt在分类涉及伤害的性别,年龄,物体和身体部位方面具有很高的准确性,分别为94%,82%,94%和89%。排除了指令无法检索任何信息的文章时,确定孩子的性别和年龄的准确性已提高到97%,以及确定受伤的身体部位的准确性提高到93%。指令gpt也能够从非英语语言文章中提取信息。结论:研究强调,LLM有可能消除特定于任务的培训的必要性(零摄取提取),从而可以从非结构化的自然语言文本中检索临床信息,尤其是从出版的科学文献中,诸如案例报告中,通过直接利用本文章的PDF PDF文件,而无需进行任何技术知识或任何技术知识范围,而无需直接使用该文章的PDF文件。语料库的多样性,其中包括用英语以外的语言编写的文章,其中一些包含广泛的临床细节,而另一些则缺乏信息,这增加了研究的力量。
主要关键词