背景:公开访问的重症监护数据库包含巨大的临床数据,但是它们的利用通常需要先进的编程技能。大型数据库和非结构化数据的日益增长的复杂性给需要编程或数据分析专业知识以直接利用这些系统的临床医生带来了挑战。目的:本研究旨在简化与重症监护相关的数据库部署和通过大语言模型提取。方法:该平台的开发是一个两步过程。首先,我们使用Docker Container Technology启用了自动化数据库部署,并具有结合的基于Web的分析接口Meterfase和Superset。第二,我们开发了重症监护室的预审预周化变压器(ICU-GPT),这是一种大型语言模型,在重症监护室(ICU)数据上进行了微调,该模型集成了Langchain和Microsoft Autogen。结果:自动部署平台的设计考虑了用户友好性,使临床医生能够在本地,云或远程环境中部署1个或多个数据库,而无需手动设置。成功克服了GPT的令牌限制并支持多策略数据后,ICU-GPT可以生成结构化查询语言(SQL)查询,并根据请求输入从ICU数据集中提取洞察力。为临床医生开发了一个前端用户界面,以在基于Web的客户端上实现无代码SQL生成。结论:通过利用自动部署平台和ICU-GPT模型的功能,临床医生可以更有效,更有效地可视化,提取和安排与重症监护相关的数据库,而不是手动方法。我们的研究可以减少在复杂的生物信息学方法上花费的时间和精力,并提高临床研究。
背景:尽管患者可以通过患者门户轻松访问其电子健康记录和实验室测试结果数据,但实验室测试结果通常令人困惑,难以理解。许多患者转向基于网络的论坛或问答(Q&A)网站,以寻求同龄人的建议。与健康相关问题的社交问答站点的答案质量差异很大,并且并非所有答案都是准确或可靠的。大型语言模型(LLM)(例如Chatgpt)为患者开辟了一个有希望的途径,可以回答他们的问题。目标:我们旨在评估使用LLM对患者提出的与实验室测试相关的问题产生相关,准确,帮助和不保障的回答的可行性,并确定可以使用增强方法来减轻的潜在问题。方法:我们从Yahoo!收集了实验室测试结果与相关的问答数据回答本研究的53个问答对。使用Langchain Framework和Chatgpt Web门户网站,我们对53个LLMS的53个问题产生了回答:GPT-4,GPT-3.5,Llama 2,Medalpaca和Orca_mini。我们使用基于标准的问答性相似性评估指标评估了他们的答案的相似性,包括以召回式评估的研究,用于观察评估的研究,双语评估研究,用于用显式排序进行翻译评估的指标以及来自变形金刚得分的双向编码器。我们使用基于LLM的评估者来判断目标模型在相关性,正确性,帮助性和安全性方面是否比基线模型具有更高的质量。,我们与医学专家进行了手动评估,以对相同4个方面的7个选定问题做出所有回答。结果:关于4个LLM的响应的相似性; GPT-4输出用作参考答案,GPT-3.5的答案最相似,其次是Llama 2,Orca_mini和Medalpaca的答案。人类来自Yahoo数据的答案的评分最低,因此与GPT-4生成的答案相似。获胜率和医学专家评估的结果都表明,GPT-4的反应比所有其他四个方面的其他LLM响应和人类反应都更好(相关性,正确性,帮助和安全性)。llm的回应偶尔也遭受了医学背景下缺乏解释,不正确的陈述和缺乏参考的痛苦。结论:通过评估LLM在对患者实验室测试结果相关的问题中产生反应时,我们发现,与Q&A网站中的其他4个LLM和人类答案相比,GPT-4的答案更准确,帮助,帮助,相关和更安全。在某些情况下,GPT-4响应不准确而不是个性化。我们确定了提高LLM响应质量的多种方法,包括及时的工程,及时的增强,检索增强的生成和响应评估。