摘要 — 目前,已通过全基因组关联研究确定了遗传多态性与各种疾病之间的众多关联。大多数具有临床意义的多态性位于基因组的非编码区域。虽然现代生物信息学资源可以预测解释非编码多态性对基因表达影响的分子机制,但这些假设需要实验验证。本综述讨论了阐明疾病发病机制依赖于非编码序列内特定遗传变异的分子机制的方法。特别关注的是识别转录因子的方法,其结合效率取决于多态性变异。尽管生物信息学资源取得了显着进展,可以预测多态性对疾病发病机制的影响,但仍然需要实验方法来研究这一问题。
基因组分析是许多微生物学研究人员日常工作的一部分。这些分析经常揭示以不确定功能编码蛋白质的基因,对于许多细菌物种,这些未知基因构成了其基因组编码序列的显着比例。由于这些基因没有定义的功能,因此在分析中通常会忽略它们。实验确定基因的功能可能具有挑战性;但是,生物信息学工具的持续进步,尤其是在蛋白质结构分析中,使得逐渐更容易地将功能分配给假设序列。利用各种互补工具和自动化管道来注释假设序列,最终可以增强我们对微生物功能的理解,并为新的实验室实验提供方向。
图1Hekexpress®细胞的基因型表征。(a)使用靶向T抗原编码序列的引物(集1)的引物,跨Hekexpress®基因组的TLA序列覆盖率。绘图表明质粒的积分位点位于3染色体等效物(CHR3)上。(b)使用针对T抗原编码序列(集1)或CHR3(集3和4)的引物(集3和4)的引物(集3和4)的引物,(b)在人类CHR3中整合基因座的TLA序列覆盖率。 集合1的覆盖范围表明,与人类HG38基因组相比,Hekexpress®基因组(绿色箭头)中的550 kb缺失。 集合3和4的覆盖范围确认了综合质量PRTAK的连接。 (c)PRTAK质粒图最初集成在Hekexpress®细胞系中。 大小的T抗原序列在橙色的基因中,在深紫色和grnas(grna_beginning和grna_end)中指示。 (d)Chr3等效(红色)的图与550 kb缺失以及包含T抗原序列的PRTAK质粒的整合。 由TLA证实的质粒 - 染色体连接均以蓝色指示。 Hek,人类胚胎肾; TLA,靶向基因座放大。(b)在人类CHR3中整合基因座的TLA序列覆盖率。集合1的覆盖范围表明,与人类HG38基因组相比,Hekexpress®基因组(绿色箭头)中的550 kb缺失。集合3和4的覆盖范围确认了综合质量PRTAK的连接。(c)PRTAK质粒图最初集成在Hekexpress®细胞系中。大小的T抗原序列在橙色的基因中,在深紫色和grnas(grna_beginning和grna_end)中指示。(d)Chr3等效(红色)的图与550 kb缺失以及包含T抗原序列的PRTAK质粒的整合。由TLA证实的质粒 - 染色体连接均以蓝色指示。Hek,人类胚胎肾; TLA,靶向基因座放大。
捕获人类疾病遗传复杂性并允许对基础细胞,组织和器官相互作用进行机械探索的实验模型对于使我们对疾病生物学的理解至关重要。这样的模型需要对多个基因的组合操作,通常是一次以上的组织。在体内进行复杂的遗传操作的能力是果蝇的关键优势,其中许多用于复杂和正交遗传扰动的工具。然而,在这些已经复杂的遗传背景中建立更多代表性疾病模型和进行机械研究所需的大量转基因是具有挑战性的。在这里,我们提出了一种设计,该设计通过允许靶向组合异位表达和来自单个诱导型转基因的多个基因敲低的靶向组合异位表达来推动果蝇遗传学的极限。由该转基因编码的多余体转录本包括一个合成的短发夹簇,它克隆在转录本的5'末端的内含子中,然后是两个蛋白质编码序列,该蛋白质编码序列由介导核糖体跳过的T2A序列分开。这项技术对于建模癌症等遗传复杂疾病特别有用,癌症通常涉及多发性肿瘤基因的同时激活和多PLE肿瘤抑制剂的丧失。此外,将多种遗传扰动巩固到single转基因中,进一步简化了执行组合遗传操作的能力,并使其很容易适应广泛的转基因系统。这种用于组合遗传扰动的灵活设计也将是一种有价值的工具,用于探索从人类疾病的OMICS研究中鉴定出的多基因基因特征并创建人源化的果蝇模型,以表征人类基因中与疾病相关的变体。它也可以适用于研究正常组织稳态和发展需要同时操纵许多基因的生物学过程。
引言Duchenne肌肉营养不良(DMD)是一种X连锁疾病,影响了5,000名新生雄性中约1个(1)。它是儿童期肌肉营养不良的最常见,并且是由于缺乏与膜相关蛋白质肌营养不良蛋白而导致的,这对于肌肉细胞中适当的力量传播至关重要(2,3)。肌营养不良蛋白的丧失导致骨骼肌损伤过敏,并导致心脏功能障碍。骨骼肌最初会经历损伤和修复的一轮,但修复最终开始失败,肌肉被纤维化和脂肪代替。肌肉的损失从近端到远端,呼吸道肌肉和/或心力衰竭作为死亡原因,通常在生命的第二个或第三个十年(4)。心脏病首先表现出舒张功能障碍,后来发展为扩张的心肌病(DCM)和衰竭(5-8)。DMD的基因治疗已以多种形式的高度截短的多种疾病(微肺炎)的形式进入了诊所,该版本是通过腺相关病毒(AAV)传递的。虽然AAV在感染和转导的肌肉方面高效,但其小包装能力(〜5 kb)使得无法容纳全长的肌营养不良蛋白编码序列(〜14 kb)。这是需要使用AAV传递高度截断性肌营养不良蛋白(9,10)的编码序列的,或者使用AAV来改变框架外肌营养不良蛋白mRNA的剪接,以创建删除恢复适当的阅读框架的删除(11,12)。无论哪种情况,目标都是表达截短的肌营养不良蛋白以减慢疾病进展。该策略实质上是旨在将DMD转变为较慢的肌肉营养不良症,可能更像是某些形式的贝克尔肌肉营养不良症(BMD),这种疾病是由营养不良蛋白突变引起的,这些突变引起的,导致各种形式的多种疾病的疾病率相关,导致产生多种截断形式的疾病进程。
MCB/PMB C134 旨在深入探究生物学中一个核心而复杂的主题。染色体生物学融合了遗传学、分子生物学、生物化学、生物物理学和细胞生物学的各个方面。虽然本课程没有特定的先决条件,但强烈建议您先修一些遗传学、细胞生物学和/或分子生物学课程(例如 MCB 100、102、140 和/或 104)。我们假设您已经了解分子生物学的“中心法则”;即遗传信息编码在 DNA 中,大多数基因都包含调控元件和蛋白质编码序列,这些序列会转录成 mRNA,进而被翻译成蛋白质。此外,对细胞组织和区室化以及 DNA 复制、转录和修复的基本了解也很重要,尽管我们将在课程中介绍更多细节。我们鼓励您充分利用在线资源(谷歌搜索、维基百科、iBiology 等)来帮助填补您的知识空白,就像每天工作的科学家所做的那样!
mtDNA中的突变速率比核DNA高约10倍,这可能是由于次要修复系统,暴露于氧化磷酸化产生的无氧自由基以及缺乏保护性组蛋白所产生的无氧自由基。NT 45-287和NT 16105-16348之间的区域被认为是高变量的。线粒体DNA没有内含子,几乎没有基因间区域。因此,大多数序列更改将影响编码序列。mtDNA的转录是多物质的,这意味着将两个(“重”和“轻”)DNA链编码的所有基因转录为两个大型前体RNA链。线粒体基因组中任何地方的缺失也可能影响其他基因的转录或翻译,即使它们的序列完好无损。结果,各种尺寸的缺失可能导致相似的表型。遗传的mtDNA异常是母体的,因为所有线粒体都来自卵子。
植物基因组数据库为遗传研究和植物育种计划提供了大量序列信息。许多具有经济价值的植物的基因组都已完全测序(Guo 等人,2021 年;Robbins 等人,2023 年;Wang 等人,2023 年)。基因组由编码特定蛋白质的基因和调节基因表达的基因间区域(启动子和终止子)组成。如果不对基因组中的单个基因进行功能表征,单独的基因组序列对任何育种计划都影响不大。功能表征旨在通过研究编码序列及其调控区域来揭示特定基因的功能。这样的研究通常涉及模型植物的转基因分析。拥有一个对单个基因进行充分表征的植物基因组数据库将有助于该植物的育种计划。
一旦生成了合适的参考序列,通常会通过重新测试来评估种类内的变化。变体通话过程可以揭示菌株,加收,基因型或个体之间的所有差异。这些变体可以根据可用的结构注释(即基因模型)的功能含义来丰富它们的功能含义。尽管这些功能影响预测以每个变化的基础是准确的,但是一些具有挑战性的案例需要同时将多个PLE相邻变体纳入此预测过程。示例包括相邻的变体,这些变体会改变彼此的功能影响。在预测效果时,邻里感知的变体影响预测变量(NAVIP)考虑给定蛋白质编码序列中的所有变体。作为概念的证明,拟南芥加收哥伦比亚-0和Niederzenz-1之间的变体被注释。Navip可在GitHub(https://github.com/bpucker/navip)上免费获得,并可以通过Web服务器(https:// pbb-tools.de)访问。