图 2:预训练的无监督 CodonBERT 模型学习到的遗传密码和进化同源性信息。使用 UMAP (McInnes et al., 2020) 将高维嵌入投影到二维空间。A–B:从预训练的 CodonBERT 模型投影的密码子嵌入。每个点代表具有不同上下文的密码子,其颜色对应于密码子的类型 ( A ) 或氨基酸的类型 ( B )。C:从预训练的 CodonBERT 模型投影的序列嵌入。每个点都是一个 mRNA 序列,其颜色代表序列标签。D:从预训练的 Codon2vec 模型投影的密码子嵌入。每个点代表一个密码子,其颜色代表对应的氨基酸。
1 changchun兽医研究所,中国农业科学院,州病原体与生物能力的国家主要实验室,吉林省预防与控制的主要实验室中国武汉340000武汉技术与商学院人工智能,卫生服务和输血医学研究所,北京100850,中国卫生服务和输血医学研究所。信息科学与技术学院,东北师范大学,编号2555 Jingyue Street,Changchun,Jilin Province 130117,中国。 电子邮件:sunpp567@nenu.edu.cn(P.S. ) );中国农业科学院的长春兽医研究所, 中国约林街573号Yujinxiang街130122。 电子邮件:hottank3210@126.com(B.Z. );卫生服务和输血研究所,编号 27 Taiping Road,北京100850,中国。 电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol2555 Jingyue Street,Changchun,Jilin Province 130117,中国。电子邮件:sunpp567@nenu.edu.cn(P.S. ) );中国农业科学院的长春兽医研究所, 中国约林街573号Yujinxiang街130122。 电子邮件:hottank3210@126.com(B.Z. );卫生服务和输血研究所,编号 27 Taiping Road,北京100850,中国。 电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol电子邮件:sunpp567@nenu.edu.cn(P.S.);中国农业科学院的长春兽医研究所,中国约林街573号Yujinxiang街130122。 电子邮件:hottank3210@126.com(B.Z. );卫生服务和输血研究所,编号 27 Taiping Road,北京100850,中国。 电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol中国约林街573号Yujinxiang街130122。电子邮件:hottank3210@126.com(B.Z. );卫生服务和输血研究所,编号 27 Taiping Road,北京100850,中国。 电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol电子邮件:hottank3210@126.com(B.Z.);卫生服务和输血研究所,编号27 Taiping Road,北京100850,中国。 电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol27 Taiping Road,北京100850,中国。电子邮件:niming@bmi.ac.cn(M.N。) †这些作者对这项工作也同样贡献了第一作者。 副编辑:Inanc Birol电子邮件:niming@bmi.ac.cn(M.N。)†这些作者对这项工作也同样贡献了第一作者。副编辑:Inanc Birol