使用所需的适当设计设计新型的生物学序列是生物科学中的重大挑战,因为较大的搜索空间超大。传统的设计程序通常涉及多轮昂贵的湿实验室评估。为了减少对昂贵的湿实验实验的需求,使用机器学习方法来帮助设计双学序列。然而,具有已知特性的双学序列的有限可用性阻碍了机器学习模型的训练,从而极大地限制了它们的适用性和性能。为了填补这一空白,我们提出了Erlbioseq,这是一种用于生物序列设计的进化增强学习算法。erlbioseq杠杆可以在没有先验知识的情况下学习学习的能力,以及进化算法的潜力,以增强生物序列较大的搜索空间中强化学习的探索。另外,为了提高生物序列设计的效率,我们在生物序列设计过程中删除了序列筛选的预测因子,该过程既包含了局部和全局序列信息。我们在三种主要类型的生物序列设计任务上评估了提出的方法,包括DNA,RNA和蛋白质的设计。结果表明,与现有的最新方法相比,所提出的方法可以取得显着改进。
主要关键词