动机:组装基因组序列的指数增长极大地构成了宏基因组学研究。但是,当前可用的方法难以管理序列的增加及其频繁更新。索引当前的RefSeq可能需要几天和数百GB的内存在大型服务器上。到目前为止,很少有方法可以解决这些问题,即使许多方法在理论上可以处理大量参考文献,但在实践中的时间/内存要求也很刺激。因此,许多需要序列分类使用的研究通常过时,并且几乎从未真正最新的指数。结果:受这些局限性的激励,我们创建了Ganon,这是一种基于K的读取分类工具,该工具与分类学聚类和K -Mer -Mer -Counting/Filtering方案一起使用了交织的Bloom过滤器。Ganon提供了一种有效的方法来索引参考,并使其更新。需要<55分钟才能索引细菌,古细菌,真菌和病毒的完整反应。该工具可以在创建它们所需的一小部分时间内将这些索引进一步保持最新。ganon可以对非常大的参考集进行查询,因此,与类似方法相比,它的读取和鉴定要多得多。与最新工具相比,Ganon在针对RefSeq的完整基因组的高复杂性CAMI挑战数据集分类时,具有相等或更好的灵敏度的精度,其精度具有相等或更高的灵敏度。使用相同的数据集针对完整的RefSeq,Ganon在属水平上将F 1分数提高了65%。它支持分类和组装级分类,多个索引和分层分类。可用性和实现:该软件是开源的,可在以下网址提供:https://gitlab.com/rki_bioinformat ICS/Ganon。联系人:bernhard.renard@hpi.de补充信息:补充数据可在BioInformatics Online获得。
6 LIANGZHU实验室,郑明大学医学中心,杭州,中国广东,7云南元南灵长生物医学研究所,灵长类动物转化医学研究所,昆明科学与科技大学,昆明,昆明,尤恩南,尤恩南,尤恩南,中国8号动物进化和遗传学的Yunnan,Yunnan 8 Models and Human Disease Mechanisms of Chinese Academy of Sciences & Yunnan Province, Kunming Institute of Zoology, Chinese Academy of Sciences, Kunming, Yunnan, China 10 National Resource Center for Non-Human Primates, Kunming Primate Research Center, and National Research Facility for Phenotypic & Genetic Analysis of Model Animals (Primate Facility), Kunming Institute of Zoology, Chinese Academy of Sciences, Kunming,中国云南11 KIZ-CUHK生物库和共同疾病的分子研究联合实验室,昆明动物学研究所,中国科学院,昆明,尤恩南,尤恩,中国12号医学遗传学研究所,医学院,医学院,加拿大大学,加拿大大学,威尔士,威尔士13号,英国人,西北大学,Xi'同样对这项工作。6 LIANGZHU实验室,郑明大学医学中心,杭州,中国广东,7云南元南灵长生物医学研究所,灵长类动物转化医学研究所,昆明科学与科技大学,昆明,昆明,尤恩南,尤恩南,尤恩南,中国8号动物进化和遗传学的Yunnan,Yunnan 8 Models and Human Disease Mechanisms of Chinese Academy of Sciences & Yunnan Province, Kunming Institute of Zoology, Chinese Academy of Sciences, Kunming, Yunnan, China 10 National Resource Center for Non-Human Primates, Kunming Primate Research Center, and National Research Facility for Phenotypic & Genetic Analysis of Model Animals (Primate Facility), Kunming Institute of Zoology, Chinese Academy of Sciences, Kunming,中国云南11 KIZ-CUHK生物库和共同疾病的分子研究联合实验室,昆明动物学研究所,中国科学院,昆明,尤恩南,尤恩,中国12号医学遗传学研究所,医学院,医学院,加拿大大学,加拿大大学,威尔士,威尔士13号,英国人,西北大学,Xi'同样对这项工作。
图3。MGCL₂,KCL和TMAC对在60°C的延长温度下在靶标的90%放大的影响。使用Platinum II TAQ热启动DNA聚合酶在Proflex PCR系统上从金黄色葡萄球菌中扩增了富含的目标序列。每个20 µL反应包含10 ng的金黄色葡萄球菌和其他(a)1、1.5、2或2.5 mmmgcl₂,(b)30、50、70或90 mm kcl或(c)50、70、70、90、90、90、90或110 mm tmac。热循环条件:94°C时2分钟;在94°C,最佳退火温度下15秒的15秒循环(表4),在60°C下为30秒/kb。PCR产品以2%E-Gel 48含Sybr安全染色的琼脂糖凝胶运行。车道M:E-GEL 1 KB Plus Express DNA梯子。
基因特异性DNA串联重复序列(TRS)的扩展,于1991年首次描述为人类引起疾病的突变,现在已知会引起60型表型,不仅是疾病,而不仅仅是在人类中。tr是遗传变异的一种常见形式,并在人类,狗,植物,牡蛎和酵母中观察到生物学后果,并观察到。重复疾病表现出非典型的临床特征,遗传预期以及家庭成员中多种和部分渗透的表型。发现引起疾病的重复扩张基因座通过DNA测序和综合分析中的技术进步加速。在2019年至2021年之间,报告了17种新的引起疾病的TR扩张,总共有63个TR基因座(> 69个疾病),可能发现更多的发现,以及更多的生物体。最近和历史课程表明,正确评估的临床表现,再加上遗传和生物学意识,可以指导发现引起疾病的疾病的发现。我们强调了TR突变的批判性但不足的方面。重复基序可能不存在于当前的参考基因组中,而是即将到来的无间隙长阅读参考。重复基序尺寸可以是单个核苷酸到千目标/单位。在给定的基因座,重复基序序列纯度可能会随结果而变化。致病性重复可以是非patheogenic TR中的“联系”。TRS的扩展,收缩和体长期变化可能会带来临床/生物逻辑后果。TR不稳定性发生在人类和其他生物中。TR可以表观遗传修饰和/或染色体脆弱的位点。我们讨论了与疾病相关的TR不稳定性的扩大领域,突出了前景,临床和遗传线索,工具和挑战,以进一步发现引起疾病的TR不稳定性并了解其生物学和病理学影响 - 即将扩大的远景。
摘要:准确预测药物-靶标结合亲和力 (DTA) 是药物发现中的一项关键任务。大多数传统的 DTA 预测方法都是基于模拟的,这严重依赖于领域知识或具有靶标的 3D 结构的假设,而这些知识通常很难获得。同时,传统的基于机器学习的方法应用各种特征和描述符,并且仅仅依赖于药物-靶标对之间的相似性。最近,随着可用的亲和力数据的增加和深度表示学习模型在各个领域的成功,深度学习技术已应用于 DTA 预测。然而,这些方法考虑了标签/独热编码或分子的拓扑结构,而没有考虑氨基酸和 SMILES 序列的局部化学背景。基于此,我们提出了一种新颖的端到端学习框架 DeepGS,该框架使用深度神经网络从氨基酸和 SMILES 序列中提取局部化学背景,以及从药物中提取分子结构。为了协助对符号数据的操作,我们建议使用先进的嵌入技术(即 Smi2Vec 和 Prot2Vec)将氨基酸和 SMILES 序列编码为分布式表示。同时,我们提出了一种在我们的框架下运行良好的新分子结构建模方法。我们进行了大量的实验,将我们提出的方法与最先进的模型(包括 KronRLS、SimBoost、DeepDTA 和 DeepCPI)进行了比较。大量的实验结果证明了 DeepGS 的优越性和竞争力。
摘要。RNA-蛋白结合在调节蛋白质活性中通过影响定位和稳定性起着重要作用。 虽然蛋白质通常是通过小分子或其他蛋白质靶向的,但易于设计和合成小的RNA是一个相当尚未开发和有希望的场所。 问题是缺乏产生与某些蛋白质可能结合的RNA分子的方法。 在此,我们提出了一种基于生成对抗网络(GAN)的方法,该方法学会生成具有天然RNA样性能(例如二级结构和自由能)的短RNA序列。 使用优化技术,我们对这些序列进行微调以使它们与靶蛋白结合。 我们使用文献中的RNA-蛋白结合预测模型来指导模型。 我们表明,即使没有针对靶蛋白的专门训练的可用指南模型,我们也可以使用针对相似蛋白质的模型,例如来自同一家族的蛋白质,可以成功地生成与靶蛋白的结合RNA分子。 使用这种方法,我们使用了针对其相对的模型(SOX10,SOX14和SOX8)量身定制的PIRNA,并量身定制为SOX2蛋白结合,并在体外实验验证了我们生成的Top-2分子我们生成的Top-2分子特异性结合了SOX2。RNA-蛋白结合在调节蛋白质活性中通过影响定位和稳定性起着重要作用。虽然蛋白质通常是通过小分子或其他蛋白质靶向的,但易于设计和合成小的RNA是一个相当尚未开发和有希望的场所。问题是缺乏产生与某些蛋白质可能结合的RNA分子的方法。在此,我们提出了一种基于生成对抗网络(GAN)的方法,该方法学会生成具有天然RNA样性能(例如二级结构和自由能)的短RNA序列。使用优化技术,我们对这些序列进行微调以使它们与靶蛋白结合。我们使用文献中的RNA-蛋白结合预测模型来指导模型。我们表明,即使没有针对靶蛋白的专门训练的可用指南模型,我们也可以使用针对相似蛋白质的模型,例如来自同一家族的蛋白质,可以成功地生成与靶蛋白的结合RNA分子。使用这种方法,我们使用了针对其相对的模型(SOX10,SOX14和SOX8)量身定制的PIRNA,并量身定制为SOX2蛋白结合,并在体外实验验证了我们生成的Top-2分子我们生成的Top-2分子特异性结合了SOX2。
温血动物(包括鸟类)肠道中自然存在的大肠杆菌是淡水水质监测中粪便污染的常用指标,可作为粪便污染和病原体的替代指标(1)。然而,目前用于计数大肠杆菌的培养方法无法区分粪便大肠杆菌和归化或环境相关的“类大肠杆菌”菌株,也称为大肠杆菌隐蔽进化枝(2-4)。Escherichia whittamii(隐蔽进化枝 2)(5)、Escherichia ruysiae(隐蔽进化枝 3 和 4)(6)和 Escherichia marmotae(隐蔽进化枝 5)(7)是最近描述的类群,但宿主物种和环境持久性仍有待确定。该项目专注于大肠杆菌和大肠杆菌属的全基因组测序。来自环境来源(淡水、河流沉积物、水生生物膜、土壤和鸟类及哺乳动物的粪便)。菌株是在研究对比土地使用对大肠杆菌属的影响的研究中获取的,并按照之前描述的方式进行培养(8)。大肠杆菌和新大肠杆菌属的基因组数据将提供有关这些细菌在环境中存活的信息和更准确的粪便追踪,从而能够识别并迅速解决影响水道的最严重污染源。
摘要。DNA 折纸是 DNA 纳米技术的支柱,人们已经投入了大量精力来了解自组装反应的各种因素如何影响目标折纸结构的最终产量。本研究分析了碱基序列如何通过在自组装过程中产生脱靶副反应来影响折纸产量。脱靶结合是一种未被充分探索的现象,可能会在折纸折叠途径中引入不必要的组装障碍和动力学陷阱。我们开发了一种多目标计算方法,该方法采用给定的折纸设计,并对不同的支架序列(及其互补的钉书钉)进行评分,以确定四种不同类型的脱靶结合事件的发生率。使用我们在 DNA 折纸上的方法,我们可以选择生物序列(如 lambda DNA 噬菌体)的“坏”区域,当用作折纸支架序列时,每种形状的脱靶副反应数量过多。我们利用高分辨率原子力显微镜 (AFM) 显示,尽管支架序列具有完全互补的订书钉组,但这些支架序列在体外大多无法折叠成目标三角形或矩形结构。相反,使用我们的方法,我们还可以选择生物序列的“良好”区域。这些序列缺乏脱靶反应,当用作折纸支架时,可以更成功地折叠成其目标结构,如 AFM 所表征。这些结果已在两个不同实验室的“盲”折叠实验中得到验证,其中实验者不知道哪些支架是好的或坏的折叠者。为了进一步研究组装行为,光镊实验揭示了不同的机械响应曲线,与支架特定的脱靶相互作用相关。虽然 GC 含量较高的变体显示出较高的平均展开力,但脱靶结合较低的变体表现出更均匀的力-延伸曲线。我们的分析证实,高脱靶结合会导致结构异质性增加,如 OT 实验展开轨迹的聚类行为所示。总体而言,我们的工作表明,如果脱靶反应足够普遍,碱基序列中隐含的脱靶反应会破坏折纸自组装过程,并且我们提供了一种软件工具来选择支架序列,以最大限度地减少任何 DNA 折纸设计的脱靶反应。
与疾病相关的人类遗传变异范围从单碱基对替换到兆碱基重复、缺失和重排 1-3 。可以在人类细胞中安装、纠正或补充这些致病变异的基因编辑方法有可能促进对遗传疾病的了解,也可能实现新的治疗方法 4、5。过去十年来,已经开发出几种基于 CRISPR-Cas 系统的哺乳动物细胞基因编辑方法 6,包括核酸酶 7-9 、碱基编辑器 10、11 和主要编辑器 12 ,每种方法都有可能解决一组已知的致病序列变化。CRISPR-Cas 核酸酶(如 Cas9)可用于通过创建导致不受控制的插入/缺失混合的 DSB 来破坏基因。此外,配对的 Cas9 核酸酶策略可以介导长度从约 50 到 > 100,000 个碱基对的基因组 DNA 序列的靶向删除 13 。通过提供线性供体 DNA 序列,可以通过末端连接或同源性定向修复 (HDR) 过程在单个切割位点或成对切割位点之间定向插入新的 DNA 序列 14, 15。单核酸酶和成对核酸酶编辑方法虽然用途广泛,但它们也存在相当大的缺点。DNA 供体敲入伴随着高效的 indel 副产物 16,因为在大多数细胞类型中,HDR 与末端连接过程相比通常效率低下 17, 18。使用成对核酸酶进行靶向删除会产生多种副产物 13, 19,而且缺失的精确位置受到 PAM 可用性的限制。此外,在靶位或脱靶位点的 DSB 可促进大面积缺失 20-22、染色体异常 23、24 和染色体碎裂 25。 DSB 倾向于生成不良副产物和染色体改变的复杂混合物 26 - 28,这在应用基于核酸酶的编辑来操作较大的 DNA 序列时带来了相当大的挑战,特别是在治疗环境中。
随机数生成是许多应用程序的关键组成部分,包括加密,安全通信系统,模拟和概率算法。伪随机数生成器(PRNGS)和量子随机数生成器(QRNG)是两种主要类型的随机数生成器,QRNG由于其固有的不可预测性提供了更好的安全性[1]。但是,预测PRNG和QRNG序列仍然是评估其安全性和可靠性的重要任务。深度学习技术,例如卷积神经网络(CNN),长期记忆(LSTM)网络和RNN,已在各种时间序列预测任务中广泛使用[2]。在本文中提出了一个混合深度学习模型,该模型结合了CNN,LSTMS和RNN来预测PRNG和QRNG序列。该模型在包含PRNG和QRNG序列的数据集上进行了训练和评估。