(A) 果蝇 (Drosophila melanogaster) 和果蝇 (D. yakuba) 中 eIF4E1 基因组邻域的同源性比较。细箭头表示果蝇 (D. melanogaster) (顶部) 和果蝇 (D. yakuba) (底部) 基因组中参考基因 eIF4E1 所在的 DNA 链。指向右侧的细箭头表示 eIF4E1 在果蝇 (D. melanogaster) 中位于正 (+) 链上,指向左侧的细箭头表示 eIF4E1 在果蝇 (D. yakuba) 中位于负 (-) 链上。指向与 eIF4E1 相同方向的宽基因箭头相对于细箭头位于同一链上,而指向与 eIF4E1 相反方向的宽基因箭头相对于细箭头位于相反链上。果蝇 (D. yakuba) 中的白色基因箭头表示与果蝇 (D. melanogaster) 中相应基因的直系同源。 D. yakuba 基因箭头中给出的基因符号表示 D. melanogaster 中的直系同源基因,而基因座标识符特定于 D. yakuba。(B)GEP UCSC Track Data Hub 中的基因模型(Raney 等人,2014 年)。D. yakuba 中 eIF4E1 的编码区显示在用户提供的 Track(黑色)中;CDS 用粗矩形表示,内含子用细线表示,箭头表示转录方向。后续证据轨迹包括 NCBI RefSeq 基因的 BLAT 比对(深蓝色,D. yakuba 的 Ref-Seq 基因比对)、D. melanogaster 蛋白质的 Spaln(紫色,D. melanogaster 的 Ref-Seq 蛋白质比对)、TransDecoder 预测的转录本和编码区(深绿色)、成年雌性和成年雄性的 RNA-Seq(分别为红色和浅蓝色;D. yakuba 的 Illumina RNA-Seq 读段比对)以及使用 D. yakuba RNA-Seq (SRP006203 - Graveley et al, 2010) 通过 regtools 预测的剪接点。显示的剪接点分别具有 232、500-999 和 >1000 的读取深度,支持读取为粉色、棕色和红色。 (C) 果蝇 (D. melanogaster) 中的 eIF4E1-PB (x 轴) 与果蝇 (D. yakuba) 中的直系同源肽 (y 轴) 的点图。左侧和底部表示氨基酸编号;顶部和右侧表示 CDS 编号,CDS 也以交替颜色突出显示。序列相似性降低的区域用红色圈出。 (D) 果蝇 (D. melanogaster) 中的 eIF4E1-PC (x 轴) 与果蝇 (D. yakuba) 中的直系同源肽 (y 轴) 的点图。序列相似性降低的区域用红色圈出。
描述了一种动态编程算法,以找到DNA子序列的所有最佳比对。对齐不仅使用核苷酸的替代,插入和缺失,还使用序列的子字符串的反转(反向补充)。反转比对本身包含核苷酸的取代,插入和缺失。我们研究与非相反反转的对齐问题。为了提供一种计算有效的算法,我们将候选反转限制为k得分最高的反转。还描述了一种算法,以找到与反演的最佳非交流对齐的算法。新算法应用于果蝇Yakuba线粒体DNA的区域,并为URF6和细胞色素B进行编码的小鼠编码,并发现了URF6基因的反转。讨论了相交反转的开放问题。