长度至少为 1 千碱基 (kb) 且重复序列同一性超过 90% 的 DNA 旁系同源物被归类为低拷贝重复 (LCR) 或片段重复 (SD)。它们占基因组的 6.6%,聚集在特定的基因组位点上。由于这些重复区域之间的序列同源性很高,它们可能在减数分裂期间错位,导致非等位基因同源重组 (NAHR),并导致结构变异,例如缺失、重复、倒位和易位。当此类重排导致临床表型时,它们被归类为基因组疾病。较大基因组片段的多个副本的存在为进化提供了机会。首先,人类谱系中新基因的产生将导致人类特有的特征和适应性。其次,人类群体之间的 LCR 变异可能导致表型变异。因此,与 LCR 相关的重排倾向应该在进化优势的背景下进行解释。
1 巴斯克大学理论物理学系 (UPV/EHU),西班牙毕尔巴鄂 2 圣塞瓦斯蒂安国际物理中心 (DIPC),西班牙圣塞瓦斯蒂安 3 维格纳物理研究中心,匈牙利布达佩斯 4 杜伦大学数学科学系,英国杜伦 5 格但斯克大学国际量子技术理论中心,波兰格但斯克 6 格但斯克理工大学国家量子信息中心应用物理与数学学院,波兰格但斯克 7 匈牙利科学院核研究所,匈牙利德布勒森 8 IKERBASQUE,巴斯克科学基金会,西班牙毕尔巴鄂
大型DNA组装方法是合成原核生物和发芽酵母染色体的里程碑成就的基础。通过〜125碱基对DNA序列定义的中心粒,哺乳动物和许多其他真核生物使用大型表观遗传性centromeres时,通过〜125碱基对dna序列定义的centromeres的染色体遗传。 利用中心粒表观遗传学允许人造染色体(HAC)形成,但不足以避免在引入细胞时初始DNA分子的多个多层次化。 我们描述了一种有效形成单拷贝HACS的方法。 它采用了一个〜750 kilobase的构建体,该构建体足够大,可以容纳存在于内部和外侧丝粒处的不同染色质类型,从而避免了对多聚体的需求。 通过使用酵母球体融合来简化向哺乳动物细胞的递送。 这些发展允许在后生细胞的背景下忠实的染色体工程。 y通过〜125碱基对dna序列定义的centromeres的染色体遗传。利用中心粒表观遗传学允许人造染色体(HAC)形成,但不足以避免在引入细胞时初始DNA分子的多个多层次化。我们描述了一种有效形成单拷贝HACS的方法。它采用了一个〜750 kilobase的构建体,该构建体足够大,可以容纳存在于内部和外侧丝粒处的不同染色质类型,从而避免了对多聚体的需求。通过使用酵母球体融合来简化向哺乳动物细胞的递送。这些发展允许在后生细胞的背景下忠实的染色体工程。y
我们研究了量子断层扫描和阴影断层扫描的问题,方法是对未知 d 维状态的各个相同副本进行测量。我们首先重新审视已知的量子断层扫描下限 [ HHJ + 17 ],精度为 ϵ(迹线距离),此时测量选择与先前观察到的结果无关,即,它们是非自适应的。我们通过适当分布之间的 χ 2 散度简洁地证明了这些结果。与之前的工作不同,我们不要求测量值由秩一运算符给出。当学习者使用具有恒定数量结果的测量值(例如,两个结果测量值)时,这会导致更强的下限。特别是,这严格建立了民间传说“泡利断层扫描”算法在样本复杂度方面的最优性。在非自适应情况下,我们还分别推导出使用任意和恒定结果测量学习秩为 r 的状态的 Ω ( r 2 d / ϵ 2 ) 和 Ω ( r 2 d 2 / ϵ 2 ) 的新界限。除了样本复杂度之外,学习量子态的一个具有实际意义的资源是所需的唯一测量设置的数量(即算法使用的不同测量的数量,每种测量可能具有任意数量的结果)。基于这种考虑,我们采用合适分布的 χ 2 散度测度集中来将我们的下限扩展到学习者从一组固定的 exp ( O ( d )) 个可能测量中执行可能的自适应测量的情况。这尤其意味着自适应性不会给我们带来使用可有效实现的单拷贝测量的任何优势。在目标是预测给定可观测量序列的期望值的情况下,我们也得到了类似的界限,这项任务称为阴影层析成像。最后,在可利用多项式大小电路实现的自适应单拷贝测量的情况下,我们证明了基于计算给定可观测量的样本均值的直接策略是最佳的。
图 1. SD108 中全基因组整合位点的计算机筛选算法。(A)选择基因间位点中的 gRNA 进行 iCas9 介导的整合。扫描基因组中的“NGG”PAM 以获得向导 RNA 文库。筛选 gRNA 以尽量减少潜在的脱靶,并根据其基因组位置进行过滤。(B)结合各种因素对实验筛选的基因组位点进行优先排序。根据寡核苷酸合成和质粒克隆标准对 gRNA 及其相应的同源臂进行改进。实施设计规则以确保菌株稳定性,避免破坏调控元件并包括基因必需性信息,同时添加基因密度作为开放染色质的代理。结合转录组学数据来选择靠近转录活性基因的位点。
一个可能有趣但尚未提及的函数是 subset.CNA 。它允许通过染色体和样本对 CNA 对象进行子集设置,这样就不必对整个数据集进行分割。同样,subset.DNAcopy 允许对包含分割输出的 DNAcopy 对象进行子集设置。由于原始默认分割算法基于排列,因此需要 O(N2) 次计算,其中 N 是染色体上的标记数。新的默认算法要快得多。它包括一种混合方法,用于计算分割的 p 值,部分基于排列,部分基于高斯近似(在 1.2.0 之后的所有版本中可用),以及一条停止规则(在 1.5.0 之后的所有版本中可用),当有强有力的证据证明存在变化时宣布变化(Venkatraman 和 Olshen,2007)。我们不再建议对较大的数据集使用重叠窗口。仍然可以使用选项 p.method='perm' 运行完整的排列分析。如果新算法仍然太慢,可以使用参数 nperm(默认值为 10,000)减少混合方法中的排列数。但是,alpha(测试接受变化点的显著性水平)越低,所需的排列就越多。对于任何非默认值的 nperm 和 alpha 选择,都需要计算停止边界
丝状真菌黑曲霉因其高蛋白质分泌能力而闻名,是同源和异源蛋白质生产的首选宿主。为了进一步提高黑曲霉的蛋白质生产能力,我们制备了一组专用的蛋白质生产菌株,其在基因组的预定位置包含多达 10 个葡糖淀粉酶着陆位点 (GLS)。这些 GLS 取代了编码大量存在或编码不需要的功能的酶的基因。每个 GLS 都包含葡糖淀粉酶基因 (glaA) 的启动子和终止子区域,该基因是黑曲霉中表达最高的基因之一。整合多个基因拷贝(通常通过随机整合实现)可提高蛋白质产量。在我们的方法中,GLS 允许使用 CRISPR/Cas9 介导的基因组编辑快速进行靶向基因替换。通过在每个 GLS 中引入相同或不同的独特 DNA 序列(称为 KORE 序列)并设计 Cas9 兼容的单向导 RNA,人们能够选择目标基因在哪个 GLS 整合。通过这种方式,可以轻松快速地制备一组具有不同目的基因拷贝数的相同菌株,以比较蛋白质生产水平。为了说明其潜力,我们成功地利用表达平台生成多拷贝 A. niger 菌株,该菌株产生 Penicillium expansum PatE::6xHis 蛋白,催化棒曲霉素生物合成的最后一步。表达 10 个拷贝 patE::6xHis 表达盒的 A. niger 菌株在培养基中产生约 70 lg mL 1 PatE 蛋白,纯度略低于 90%。
非传统酵母东方伊萨酵母 (Issatchenkia orientalis) 的强健特性使其能够在高酸性条件下生长,因此,人们对使用多种碳源生产有机酸的兴趣日益浓厚。最近,东方伊萨酵母的遗传工具箱的开发,包括附加型质粒、多个启动子和终止子的特征以及 CRISPR-Cas9 工具,简化了东方伊萨酵母的代谢工程工作。然而,由于缺乏有效的多拷贝整合工具,多重工程仍然受到阻碍。为了促进通过多重 CRISPR-Cas9 介导的基因组编辑构建大型复杂代谢途径,我们开发了一条生物信息学流程来识别和确定全基因组基因间位点的优先级,并表征了位于 21 个基因间区域的 47 个 gRNA。对这些位点进行了向导 RNA 切割效率、基因盒的整合效率、由此产生的细胞适应度和 GFP 表达水平的筛选。我们进一步利用来自这些已充分表征的基因座的组件开发了一种着陆垫系统,该系统可帮助利用单个引导 RNA 和用户选择的多个修复模板整合多个基因。我们已经证明了利用着陆垫同时将 2、3、4 或 5 个基因整合到目标基因座中,效率超过 80%。作为概念验证,我们展示了如何通过一步整合多个位点的五个基因拷贝来提高 5-氨基乙酰丙酸的产量。我们进一步证明了该工具的效率,即利用单个引导 RNA 和五个不同的修复模板整合五个基因表达盒,构建了琥珀酸生产代谢途径,从而在批量发酵中生产出 9 g/L 的琥珀酸。这项研究证明了单个 gRNA 介导的 CRISPR 平台在非传统酵母中构建复杂代谢途径的有效性。该着陆垫系统将成为 I. orientalis 代谢工程的宝贵工具。