病原体鉴定在诊断,治疗和预防疾病中至关重要,对于控制感染和保护公共卫生至关重要。传统的基于对准的方法虽然广泛使用,但在计算上是强度的,并且依赖于广泛的参考数据库,由于其低灵敏度和特异性,通常无法检测到新颖的病原体。同样,传统的机器学习技术虽然有希望,但需要大量的注释数据集和广泛的功能工程,并且容易过度拟合。解决这些挑战时,我们引入了Patholm,这是一种优化的病原体语言模型,以鉴定细菌和病毒序列中的致病性。利用预先训练的DNA模型(例如核苷酸变压器)的优势,Patholm需要最小的数据以进行微调,从而增强了病原体检测能力。它有效地捕获了更广泛的基因组环境,从而显着改善了新颖和发散病原体的鉴定。我们开发了一个全面的数据集,其中包括大约30种病毒和细菌,包括埃斯卡皮病原体,七种抗抗生素耐药性的毒性菌株尤其是毒性。此外,我们策划了一个以Eskapee组为中心的物种分类数据集。在比较评估中,Patholm极大地胜过现有模型,例如DCIPATHO,表现出强大的零射击和很少的功能。此外,我们扩大了埃斯卡皮物种分类的Patholm-s-sp,尽管任务的复杂性,但与其他先进的深度学习方法相比,它表现出了优越的性能。
主要关键词