甚至在基因组测序之前,遗传资源都支持物种管理和育种计划。当前的技术,例如长阅读测序,可以解决复杂的基因组区域,例如富含重复或含量高的GC含量的技术区域。改善的基因组连续性提高了识别结构变异(SV)和转座元素(TES)的精度。我们为澳大利亚亚洲鲷鱼(Chrysophrys auratus)提供了改进的基因组组件和SV目录。新组装更连续,可以鉴定14个centromeres,并从黄鳍seabream中转移26,115个基因注释。与先前的组件相比,注释了35,000个其他SV,包括更大,更复杂的重排。svs和tes表现出偏向染色体末端的分布模式,可能受重组的影响。一些SV与生长相关的基因重叠,强调其意义。这个升级的基因组是研究自然和人工选择的基础,为相关物种提供了参考,并阐明了根据进化形成的基因组动力学。
癌细胞基因组含有正常细胞中没有的环状染色体外 DNA (ecDNA) 元素。临床样本分析表明,它们在大多数癌症中很常见,它们的存在预示着不良预后。它们通常含有高表达的增强子和驱动致癌基因。环状 ecDNA 拓扑结构导致染色质开放构象并产生新的基因调控相互作用,包括与远端增强子的相互作用。着丝粒的缺失导致细胞分裂过程中 ecDNA 随机分布,并且编码在其上的基因以非孟德尔方式传播。ecDNA 可以整合到染色体 DNA 中和退出。特定 ecDNA 的数量会随着治疗而改变。这种重塑癌症基因组的动态能力挑战了长期存在的基本原理,为肿瘤异质性、癌症基因组重塑和耐药性提供了新的见解。
Nipponbare是一种Japonica水稻品种,已被广泛用作水稻的标准参考基因型[1]。大米(Nipponbare)基因组是20多年前测序的最早测序的作物基因组之一[2]。大米基因组的第1个序列于2002年完成,是国际水稻基因组测序项目,2005年的植物基因组学领域的主要英里石[3]。这些国际合作努力提供了作物工厂的第一个基因组。Nipponbare基因组组装含有间隙,主要是由于重复的DNA序列。在2005年,这些差距总共约为18.1 MB,大部分来自centromeres和端粒区域。对技术进步和正在进行的研究工作的测序,随着时间的推移改善了水稻基因组序列[4,5]。thor的努力,以提高2013年的裸露参考基因组组件的质量,从而大大提高了cDNA序列和基因注释的精度,而它仍然不完整[5]。在人类基因组中,在组装和特征化方面已取得了最新的迈进,先前未开发的8%的人类基因组,尤其是包括端粒序列[6]。
哺乳动物细胞中的遗传筛选通常专注于功能丧失方法。为了评估额外基因拷贝的表型后果,我们使用了辐射杂种(RH)细胞的大量分离分析(BSA)。,我们构建了六个RH细胞池,每个池由约2500个独立克隆组成,并将池放置在带有或没有紫杉醇的培养基中。低通序测序鉴定859个生长基因座,38个紫杉醇基因座,62个相互作用基因座和3个基因座,用于跨基因组的明显限度,用于线粒体丰度。分辨率被测量为约30 kb,接近单基因。差异性特性,反驳了平衡假设。此外,在RH池中,人类丝粒的保留增强表明,这些染色体元素的功能解剖方法是一种新的方法。对RH细胞的合并分析显示出高功率和分辨率,应该是哺乳动物遗传工具包的有用补充。
人类基因组项目是一个巨大的成就,为人类物种的遗传学和基因组学探索了无数的基础。多年来,人类基因组参考序列仍然不完整,并且缺乏人类遗传多样性的代表。最近,已经出现了两个重大进展来解决这些缺点:完全无间隙的人类基因组序列,例如由端粒到telomere群结的结合所开发的,以及高质量的pangenomes,例如由人类Pangenome Pangenome参考联盟中的dna序列组成和基因组合的依赖性,例如,由人类Pangenome PangeNome参考核心组成的核心和基因组合的核心,历史上难以顺序的区域,包括着丝粒,端粒和分段重复。同时,Pangenomes捕获了全世界种群中广泛的遗传多样性。共同发展了基因组学研究的新时代,增强了基因组分析的准确性,铺平了精确医学的道路,并有助于更深入地了解人类生物学。
串联重复序列,或广义上的卫星序列,是基因组普遍性和功能相关性研究最多的重复序列。卫星序列这一术语于 1961 年诞生,因为在平衡沉降实验中,这些序列分布在主体 DNA 带的上方和下方。 [3] 卫星序列根据其大小可分为:i)微卫星序列或短串联重复序列 (STR),既短(每个模式 2 到 6 bp 长的序列),又丰富(约覆盖我们基因组的 3%),代表性例子是端粒微卫星 d[TTAGGG] n ,重复序列 >10 kb;ii)微卫星序列/模式长约 15 bp,阵列长度高度可变(从 0.5 到 30 kb); iii)卫星(约 200 bp 长的序列/模式)构成了着丝粒和着丝粒周围和亚端粒区域的大部分,其中 α 卫星最为丰富(约占卫星 DNA 的 50% 和所有 DNA 重复的 10%);以及 iv)大卫星(> 1 kb 长的序列/模式)代表大的染色体区域。[4]
CDCA7,用羧基末端半胱氨酸结构域(CRD)编码蛋白质,在免疫缺陷,丝状不稳定性和面部异常(ICF)综合征中突变,这种疾病与近二酸 - 近甲基卫星DNA的甲基化有关。CDCA7如何将DNA甲基化引导到并置玻璃液区域是未知的。在这里,我们表明CDCA7 CRD采用了独特的锌结合结构,该结构识别由两个序列基序形成的非B DNA中的CpG二元组。CDCA7,但不是ICF突变体,优先通过链特异性CpG半甲基化结合非B DNA。未甲基化的序列基序高度富集在人类染色体的centromeres上,而甲基化基序分布在整个基因组中。在S期,CDCA7而不是ICF突变体集中在组成型异染色质灶中,并且通过由CRD结合的外源半甲基化的非B DNA可以抑制这种灶的形成。在DNA复制过程中在近齿粒区域中形成的非B DNA的结合提供了一种机制,通过该机制CDCA7控制DNA甲基化的特异性。
R 环是一种非典型的三链核酸结构,包含一段 RNA:DNA 杂合体和一个不成对的单链 DNA 环。R 环具有生理相关性,可作为基因表达、染色质结构、DNA 损伤修复和 DNA 复制的调节剂。然而,非计划和持续的 R 环具有诱变性,可介导复制-转录冲突,如果不加以控制,会导致 DNA 损伤和基因组不稳定。详细的转录组分析表明,85% 的人类基因组(包括重复区域)都具有转录活性。这预示着 R 环管理在基因组的调控和完整性中起着核心作用。预计此功能对占人类基因组 75% 的重复序列具有特别的相关性。在这里,我们回顾了 R 环对着丝粒、端粒、rDNA 阵列、转座因子和三联体重复扩增等重复区域的功能和稳定性的影响,并讨论了它们与相关病理状况的相关性。
哺乳动物细胞中的遗传筛选通常集中在功能丧失方法上。为了评估额外基因拷贝的表型后果,我们使用了辐射杂种(RH)细胞的大量分离分析(BSA)。,我们构建了六个RH细胞池,每个池由约2500个独立克隆组成,并将池放置在带有或没有紫杉醇的培养基中。低通序测序鉴定859个生长基因座,38个紫杉醇基因座,62个相互作用基因座和3个基因座,用于跨基因组的明显限度,用于线粒体丰度。分辨率被测量为约30 kb,接近单基因。的分歧性质,从而反驳了平衡假设。此外,在RH池中,人类丝粒的保留增强表明,这些染色体元素的功能解剖方法是一种新的方法。对RH细胞的合并分析显示出高功率和分辨率,应该是哺乳动物遗传工具包的有用补充。
尽管拟南芥最初主要是一个功能生物学系统,但由于其广泛的地理分布和对不同环境的适应性,它已发展成为种群基因组学的强大模型。这里我们展示了来自全球物种范围的 69 个种质的染色体水平基因组组装。我们发现基因组共线性非常保守,即使在地理和遗传上相距遥远的种质之间也是如此。沿着染色体臂,兆碱基级重排很少见,通常只存在于单个种质中。这表明核型是准固定的,染色体臂中的重排是反向选择的。着丝粒区域显示出更高的结构动态,核心着丝粒的分歧解释了大多数基因组大小变化。全基因组分析发现了 32,986 个不同的基因家族,其中 60% 存在于所有种质中,40% 似乎是可有可无的,包括 18% 只存在于单个种质中,这表明存在未开发的基因多样性。这 69 个新的拟南芥基因组组装将为未来的遗传研究提供助力。