当前基于NLP的CHATGPT深度学习模型已经开发并验证了这些模型,这些模型在与一般主题有关的多项选择问题上,并在某种程度上是标准的科学基准数据集,例如PubMed Question-swingering(PubMedQA),Arxiv和Stanford Question-wording Question-Assive-Assive-Asswork-Assworge-Answorking Dataset(Squead)。但是,QA任务尤其是全文文章阅读是一项非常具有挑战性的任务,并且在当前Chatgpts的科学环境中是一项艰巨的任务。我们的管道着重于生物化学,生物信息学,生物医学的生成预训练的变压器(GPT)模型,包括临床文献,例如生物标志物,药物,剂量等。与迄今为止在现场的给定关键字或上下文特定文献有关(“人类肠道微生物组作为案例研究”)。
图1提供了研究设计的示意图。这项研究包括3个组成部分:数据,模型和评估。模型根据数据类型而变化,而评估方法在整个过程中保持一致。数据分为两种类型:PubMedQA,源自医学研究摘要,以及从Quora [41-43]中提取的问答数据,这是一个社交平台,用户提出和回答问题。实验中使用的模型包括两种类型:经过预处理的基本模型和一个对医学数据进行微调的模型。为了评估每个模型的生成答案,我们检查了与输入问题有关的响应的数量和质量。随后,我们评估了正确答案的生成答案的相似性。bert的相似性[36]和Spacy相似性[37]用于测量每个与抑郁症相关问题的人提供的原始答案与LLM生成的答案之间的上下文相似性。
