RNA在将遗传指令转化为功能外的功能中起着关键作用,强调了其在生物过程和疾病机构中的重要性。尽管出现了许多深度学习方法,尤其是通用RNA语言模型,但仍缺乏标准化的基准来评估这些方法的有效性。在这项研究中,我们介绍了第一个全面的RNA基准标签(Be NCHM A RK用于任务和语言模型)。首先,Beacon构成了13项不同的任务,这些任务涵盖了结构分析,功能研究和工程应用的广泛工作,从而可以对各种RNA理解任务的方法进行全面评估。第二,我们检查了一系列模型,包括CNN等传统方法以及基于语言模型的高级RNA基础模型,为这些模型的特定任务性能提供了宝贵的见解。第三,我们研究了从令牌和位置编码方面的重要RNA语言模型组件。值得注意的是,我们的发现强调了单个核苷酸令牌化的优势以及与传统位置编码方法相比,用线性偏见(Alibi)抚养的有效性。基于这些见解,提出了一个简单而强大的基线,称为Beacon-B,可以通过有限的数据和计算资源来实现出色的性能。我们的基准标准的数据集和源代码可在https://github.com/terry-r123/rnabchhench上获得。
主要关键词