Loading...
机构名称:
¥ 1.0

摘要负责监督数据管理的数据管家通过确保数据整个生命周期的质量,完整性和可访问性,在循证医学中起关键作用。但是,管理医疗数据带来了挑战,包括以不同格式从各种来源处理各种结构化和非结构化数据。此数据策展过程需要大量的时间和资源。为了减轻这些挑战并提高数据管理的效率,我们使用大型语言模型(LLMS)介绍了一种新颖的数据管理工具和策展工作流。我们通过使用6种不同的帕金森氏病(PD)研究的数据字典进行自动成对队列进行协调来评估我们的方法,并在阿尔茨海默氏病(AD)的背景下进行了13项不同的研究,以及使用从ukbiobank获得的代码描述的超过38,000个ICD10代码的映射任务。与未捕获可变描述上下文的基于字符串匹配的基线方法相比,我们发现生成性预训练的变压器(GPT)基于嵌入的映射的执行效果明显好得多,可以达到PD COHORT协调的最佳平均准确性,以实现自动化的初始最接近82%的初始匹配。我们发现,由于各种不同的配方和措辞问题,在所有情况下都不能自动匹配描述,但我们相信我们的数据管家工具可以显着促进以半自动方式促进数据管家的工作。

智能数据管家工具箱

智能数据管家工具箱PDF文件第1页

智能数据管家工具箱PDF文件第2页