本研究提出了一个利用检索增强产生(RAG)来增强大肠杆菌(E.COLI)基因组学中复杂生物信息学数据的解释和分析的框架。通过整合包括成对对准的生物信息学工具,NCBI注释,多序列对准(MSA)与大语言模型(LLM)(例如GPT O3-MINI),GEMINI 2.0 Advanced Flash Thinky Thinking Thinking Thinking Trusive trining实验模型以及Grok 3,我们的方法将实时数据的试验与动态数据的自然语言生成结合。这种集成使原始计算输出转换为连贯且可访问的叙述,从而有助于对基因组组织和基因功能的更深入了解。通过检索特定于域的知识来增强llm功能的RAG框架,然后将其用于完善和上下文化生成的见解。通过自定义提示工程,我们的系统合成了不同的数据集,以突出多个大肠杆菌菌株的基因组变异,保守同义和注释一致性的关键方面。通常,我们的工作表明,将抹布与传统的生物信息学方法整合在一起,为在微生物研究中为更有效,更准确的基因组分析铺平了强大,可扩展的解决方案,以将复杂的基因组数据集转化为具有动作能力的生物学见解。
主要关键词