图 2:预训练的无监督 CodonBERT 模型学习到的遗传密码和进化同源性信息。使用 UMAP (McInnes et al., 2020) 将高维嵌入投影到二维空间。A–B:从预训练的 CodonBERT 模型投影的密码子嵌入。每个点代表具有不同上下文的密码子,其颜色对应于密码子的类型 ( A ) 或氨基酸的类型 ( B )。C:从预训练的 CodonBERT 模型投影的序列嵌入。每个点都是一个 mRNA 序列,其颜色代表序列标签。D:从预训练的 Codon2vec 模型投影的密码子嵌入。每个点代表一个密码子,其颜色代表对应的氨基酸。