摘要在1948年,克劳德·香农(Claude Shannon)发表了一个数学系统,描述了自然语言字母与其后续顺序或语法结构之间的概率关系。通过计算称为n-grams的独特的,重复发生的字母序列,该语言模型用于从N-克频率概率表中生成可识别的英语句子。最近,N-Gram分析方法已成功地解决了从语言处理到基因组学的各个领域中的许多复杂问题。这样的示例是N-Gram频率模式和监督分类模型的共同使用来确定作者身份和窃。在这种方法论中,DNA是一种语言模型,其中核苷酸类似于单词字母和核苷酸n-gram的字母类似于句子的单词。由于DNA包含高度保守和可识别的核苷酸序列频率模式,因此该方法可以应用于各种分类和数据还原问题,例如基于未知的DNA片段鉴定物种。该方法的其他有用应用包括鉴定功能基因元件,序列污染和测序伪影。为此,我提出了DNANAMER,这是一种基于其N克频率模式的DNA序列的监督分类的广义和可扩展的方法论框架和分析工具包。