数据分析受到熟练专家的短缺的约束,特别是在生物学方面,在这种情况下,详细的数据分析和随后的解释对于理解复杂的生物过程以及开发新的治疗方法和诊断至关重要。专家短缺的一种可能解决方案是利用大型语言模型(LLMS)用于发电数据分析管道。但是,尽管在用于代码生成任务的情况下,LLMS显示出很大的潜力,但是在提示与域专家问题(例如OMICS相关数据分析问题)提示时,有关LLM的准确性的问题仍然有效。为了解决这个问题,我们开发了Mergen,这是一个利用LLMS进行数据分析代码生成和执行的R软件包。我们使用基因组学的各种数据分析任务评估了该数据分析系统的性能。我们的主要目标是使研究人员通过简单地描述其目标和通过清晰文本的特定数据集的所需分析来进行数据分析。我们的方法通过专门的及时工程和错误反馈机制来改善代码生成。此外,我们的系统可以执行LLM规定的数据分析工作流,从而为人类审查提供数据分析工作流程的结果。我们对该系统的评估表明,尽管LLM有效地生成了某些数据分析任务的代码,但在执行代码生成中仍然存在挑战,尤其是对于复杂的数据分析任务。对于复杂性3、4和5的任务,这一增加分别为52.5%,27.5%和15%。通过自我纠正机制可以看到最佳性能,与复杂性任务相比,自我校正能够将可执行代码的百分比增加22.5%。使用卡方检验,显示出使用不同的提示策略可以发现显着差异。我们的研究有助于更好地理解LLM功能和局限性,从而提供软件基础架构和实用见解,以有效地集成到数据分析工作流程中。
主要关键词