[1]可根据旋转不变性的最小值RNA结构基序的可扩展且可解释的识别,撰写的,Zhou,Malik,Tang,Mathews和Huang。重新梳理202 5。预印本:https://arxiv.org/abs/2402.17206。[2]通过竞争对手结构的产生和结构分解,Zhou,Tang,Mathews和Huang通过竞争结构的产生和结构分解识别。RECOMB 2024,LNCS 14758的RECOMB会议记录,Springer。https://arxiv.org/abs/2311.08339 [3] RNA设计通过structure-ware Multi-Frontier合奏优化,作者:Zhou,Dai,Li,Li,Ward,Mathews和Huang。ISMB 2023的会议记录;生物信息学,39(supp。 1)。 https://doi.org/10.1093/bioinformatics/btad252ISMB 2023的会议记录;生物信息学,39(supp。1)。https://doi.org/10.1093/bioinformatics/btad252
#这些作者为这项工作做出了同样的贡献。*通信:wzhang25@njau.edu.cn(W.L.张)。抽象的i-motif(im)是一种四链(或四链体)DNA结构,它折叠了胞嘧啶(C) - 富序列。ims可以在体外的许多不同条件下折叠,这为它们在活细胞中形成的道路铺平了道路。被怀疑,IMS在各种DNA交易中起关键作用,特别是在基因组稳定性,基因转录和翻译,DNA复制,端粒和丝粒功能以及人类疾病的调节中起关键作用。我们在这里总结了用于评估IMS体外折叠的不同技术,并概述了影响其体内形成和稳定性的内部和外部因素。因此,我们描述了IM的可能生物学相关性,并提出了将其用作生物学目标的方向。关键字i -Motifs,方法论,基础修改,内部和外部条件,生物学意义突出显示 - 不同方法和分子工具的组合对于询问
tbl.tfClassExample <- data.frame(motifName=c("MA0006.1", "MA0042.2", "MA0043.2"), chrom=c("chr1", "chr1", "chr1"), start=c(1000005, 1000085, 1000105), start=c(1000013, 1000092, 1000123), score=c(0.85, 0.92, 0.98), stringsAsFactors=FALSE) # 这里我们说明如何添加具有所需名称的列:tbl.tfClassExample$shortMotif <- tbl.tfClassExample$motifName tbl.out <- associateTranscriptionFactors(MotifDb, tbl.tfClassExample, source="TFClass", expand.rows=TRUE) dim(tbl.out) # 许多 tfs 已映射,主要是 FOX 家族基因 tbl.motifDbExample <- data.frame(motifName=c("Mmusculus-jaspar2016-Ahr::Arnt-MA0006.1", "Hsapiens-jaspar2016-FOXI1-MA0042.2", "Hsapiens-jaspar2016-HLF-MA0043.2"), chrom=c("chr1", "chr1", "chr1"), start=c(1000005, 1000085, 1000105), start=c(1000013, 1000092, 1000123), score=c(0.85, 0.92, 0.98),字符串因子=FALSE)
重复使用本文是根据创意共享属性 - 非商业 - 诺迪维斯(CC BY-NC-ND)许可证的条款分发的。此许可只允许您下载此工作并与他人共享,只要您归功于作者,但是您不能以任何方式更改文章或商业使用。此处的更多信息和许可证的完整条款:https://creativecommons.org/licenses/
摘要 — 将信息编码在预先合成的脱氧核糖核酸 (DNA) 链 (称为基序) 组合中是一种有趣的 DNA 存储方法,有可能避免逐个核苷酸 DNA 合成的高昂成本。基于对 HelixWorks 经验数据集的分析,我们为这种设置提出了两种通道模型 (有干扰和无干扰),并分析了它们的基本限制。我们提出了一种编码方案,通过利用通道输出处可用的所有信息来接近这些限制,这与 Preuss 等人为类似设置开发的早期方案不同。我们强调了通道容量曲线与合成 (写入) 和测序 (读取) 成本之间的基本权衡之间的重要联系,并提供了一种方法来缓解解码复杂性随基序库大小而呈指数增长的问题。
图2:ESM2预测结构化和无序残基的适应性景观。(a)呈现了人类HP1α蛋白(Uniprot ID:P45973)中氨基酸的ESM2评分,残基的PLDDT得分低于70,以蓝色突出显示,以表示缺乏确定结构的区域。(b)在结构秩序不同程度的三个区域的健身景观的详细观点。在左侧,人类HP1α蛋白的Alphafold2预测的结构以卡通表示显示,其颜色为PLDDT分数。三个特定区域,代表柔性无序(残基75-85),保守无序(残基87-92)和折叠(残基120-130)段,分别用蓝色,橙色和红色突出显示,使用球形粘贴样式。右侧的面板描绘了每个区域中每个区域的ESM2 LLR预测。(c,d)PLDDT和ESM2分布分布的直方图(C)和无序(D)残基。轮廓线表示计算为 - log P(PLDDT,ESM2)的自由能水平,其中P是基于其PLDDT和ESM2分数的残基的概率密度。轮廓以0.5个单位间隔间隔,以区分不同密度的区域。
# Compare the first motif with everything and return P-values head ( compare_motifs (motifs, 1 )) #> Warning in compare_motifs(motifs, 1): Some comparisons failed due to low motif #> IC #> DataFrame with 6 rows and 8 columns #> subject subject.i target target.i score logPval #> #> 1 ORA59 1 ERF11 [duplicated #6.. 1371 0.991211 -13.5452 #> 2 ORA59 1 CRF4 [duplicated #566] 1195 0.990756 -13.5247 #> 3 ORA59 1 LOB 1297 0.987357 -13.3725 #> 4 ORA59 1 ERF15 618 0.977213 -12.9254#> 5 ORA59 1 ERF2 [重复#294] 649 0.973871 -12.7804#> 6 ORA59 1 ERF2 [重复#483] 1033 0.973871 -12.78804#> 1.31042E-06 0.00359318#> 2 1.33754E-06 0.00366754#> 3 1.55744E-06 0.00427049#> 4 2.43548e-06 06 06 06 0.00606667809# 0.00772019
从基因组的非编码区域通过突变依次出现。除其他外,此类突变分析转录并创建一个新的开放阅读框(ORF)。尽管ORF出现的机制有充分的文献证明,但对实现新转录事件的机制知之甚少。然而,在许多物种中,已经报道了基因组所有区域的缺乏和非常突出的转录之间的连续体。在这项研究中,我们使用新组装的基因组和七个果蝇的近交系列的转录组和转录组搜索了从头转录本,该基因组和一个来自六个欧洲和一个非洲人口的近交系列。此设置使我们能够检测Sam ple特定的从头转录本,并将其与其他样品中的同源非转录区以及遗传和基因间控制序列进行比较。我们研究了与转换元件(TES)的关联,并富集了从头开始出现的转录本上游的转录因子基序,并将其与调节元素进行了比较。我们发现,从头的成绩单与TES重叠的频率比偶然性的频率更高。新转录本的出现cor与高鸟嘌呤 - 环蛋白含量和TE表达的区域有关。此外,从头转录本的上游区域高度丰富了调节基序。这种基序在与TES(尤其是DNA TES)重叠的新转录物中更丰富,并且比上游的“非转录同源物”更保守上游。总体而言,我们的研究表明,TE插入对于转录本的出现很重要,部分是通过引入DNA te家族的新调节图案。
图是复杂结构的典型非欧几里得数据。近年来,Riemannian图表的学习已成为欧几里得学习的令人兴奋的替代方法。,里曼尼亚方法仍处于早期阶段:无论结构复杂性如何,大多数方法都会出现单个曲率(半径),由于指数/对数映射而导致数值不稳定,并且缺乏捕获基调规律性的能力。鉴于上述问题,我们提出了主题感知的Riemannian图表的问题,寻求数值稳定的编码器,以在带有无标签的多样化曲面中限制基序的规律性。为此,我们提供了一种具有生成对比度学习(Motifrgc)的新型主题Riemannian模型,该模型以一种自我监督的方式在Riemannian歧管中进行了Minmax游戏。首先,我们提出了一种新型的Riemannian GCN(D-GCN),在该GCN(D-GCN)中,我们用di-Versifed因子构建了由产品层构建多种狂热的歧管,并用稳定的内核层代替了指数/对数映射。第二,我们引入了一种主题感知的riemannian生成对比学习,以捕获构造的歧管中的主题规律性,并在没有外部标签的情况下学习主题感知的节点表示。经验结果表明了Mofrgc的优越性。
摘要:端粒是专门的结构,在真核细胞中线性染色体的末端发现,在维持基因组的稳定性和完整性方面起着至关重要的作用。它们由重复的DNA序列,ssDNA悬垂和几种相关的蛋白质组成。端粒的长度与人类的细胞衰老有关,维持的缺陷与各种疾病有关。端粒的关键结构基序可保护脆弱的染色体末端。端粒DNA还具有形成各种复杂DNA高阶结构的能力,包括T环,D环,R环,G-Loops,G-Quadruplexes和I-Motifs,在互补的C-rich链中。虽然已经确定了许多端粒上的基本蛋白质,但它们的相互作用和结构细节的复杂性仍未完全了解。这种观点强调了在理解与人类端粒相关的结构方面的最新进步。它强调了端粒的意义,探索各种端粒结构基序,并深入研究端粒和端粒酶的结构生物学。还讨论了有助于保护端粒的端粒环,其拓扑结构和相关蛋白质。