基于其他领域的成功,基因组学的语言模型(LMS)迅速发展。这一发展的关键是建立适当的基准和系统评估方法。到目前为止提出的基准标记集中在依赖短范围序列上下文的任务上,而缺乏对基因组学不可或缺的远程任务的模型的评估,例如基因表达和遗传变异预测。在这项工作中,我们提出了一个填补这一需求并介绍基因组学长期基准测试的基准测试,这是一种评估工具,旨在涵盖需要长期序列依赖性的任务,这对于DNA语言模型的基因组应用至关重要。除了将相关任务明确定义和组织相关的任务外,我们还提供了对拟议基准进行评估的几种突出和最近的DNA LMS的初步结果。最后,我们通过探索评估的DNA LMS之一核苷酸变压器的上下文长度扩展方法的效果来探测基准中的任务。通过提出这种基准测试,我们希望刺激DNA LM的持续发展,并为未来的发展提供富有成果的测试场,旨在捕获基因组学中的远程序列建模。
主要关键词