大型语言模型(LLM)在广泛的科学领域,尤其是在生物医学科学中都产生了变革性的影响。就像自然语言处理的目标是了解单词序列一样,生物学的主要目标是了解生物学序列。基因组语言模型(GLM)是在DNA序列上训练的LLM,具有显着提高我们对基因组的理解以及各种量表的DNA元素如何相互作用以产生复杂功能的潜力。为了展示这种潜力,我们突出了GLM的关键应用,包括功能约束预测,序列设计和转移学习。尽管最近取得了显着的进展,但发展有效而有效的GLM却带来了许多挑战,尤其是对于具有较大且复杂基因组的物种。在这里,我们讨论了开发和评估GLM的主要考虑因素。