历史上,分子生物学充满了新颖、微妙且常常引起争议的思想,最近,它继承了以多核苷酸和多肽序列形式存在的大量标准化数据。弗雷德·桑格因在开发将核心生物信息简化为一个线性维度所需的基本技术方面发挥了开创性作用而获得了两项当之无愧的诺贝尔奖。随着记录信息的爆炸式增长,生物化学家首次发现有必要熟悉数据库和提取记录相关性所需的算法,并反过来将它们很好地用于探索系统发育关系以及寻找基因及其通常有价值的产物的应用任务。人类基因组计划中对这一研究挑战的形式化为要分析的数据集和支持该研究的资金产生了新的动力。因此,DNA 序列数据库的管理一直是与分子生物学相关的计算机科学的主要吸引力,这是有充分理由的。除了可以访问大量数据的实用优点之外,序列几乎没有表示的复杂性;而知识获取任务几乎只需要执行集中的、网络连接的档案中存储序列信息的约定标准。细胞对序列的解释嵌入在比字符串匹配更复杂的环境中。必须承认,典型 DNA 双螺旋中的碱基互补规则和密码子的匹配
主要关键词