基因表达的调节对应于基因组中编码的信息转化为表型的过程中的关键步骤。尽管已经对转录水平变化的遗传起源进行了广泛的分析,但我们的知识仍然非常有限,因为人群水平上蛋白质丰度变异的遗传起源。在这里,我们生成了近一千个天然酵母菌株的定量蛋白质组。通过与其转录组相比,我们的分析共同表明,转录组和蛋白质组显然是两种不同的调节水平,受自然种群中不同遗传基础的控制。在一起,我们的结果突出了访问这两个级别的基因表达以更好地理解基因型 - 表型关系的相关性。
单细胞RNA-Seq以前所未有的规模和细节来表征生物样品,但数据解释仍然具有挑战性。在这里,我们介绍了Cellwhisperer,这是一种多模式的机器学习模型和软件,该模型和软件连接转录组和文本,用于交互式单细胞RNA-seq数据分析。Cell Whisperer启用25英语中基于聊天的转录组数据的询问。为了培训我们的模型,我们创建了一个具有超过一百万对RNA-seq配置文件和匹配的文本注释的A-Ai-Cunip策划数据集,并在广泛的人类生物学上进行了匹配,我们建立了使用对比学习的匹配转录组和文本的多模式嵌入。我们的模型启用了按单元类型,状态和其他属性以零摄像的方式启用转录组数据集的自由文本搜索和注释,而无需参考数据集。此外,细胞-30个耳语者回答了关于自然语言聊天中细胞和基因的问题,使用生物学流利的大语言模型,我们对我们进行了微调,以分析各种生物应用中的批量和单细胞转录组数据。我们将Cell Whisperer与广泛使用的CellXgene浏览器集成在一起,使用户可以通过集成的图形和聊天接口进行遗传探索RNA-Seq数据。我们的方法展示了一种使用转录组数据的新方法,利用自然语言进行单细胞数据35分析,并为未来的基于AI的生物信息学研究助理建立重要的基础。
通过计算方法识别药物-靶标相互作用 (DTI) 是加速药物开发和了解小分子作用机制的可靠策略。然而,目前预测 DTI 的方法主要集中于识别简单的相互作用,需要进一步的实验来了解药物的作用机制。在这里,我们提出了 AI-DTI,这是一种通过结合 mol2vec 和遗传扰动的转录组来预测激活和抑制 DTI 的新方法。我们在具有 MoA 的大规模 DTI 上训练了该模型,发现我们的模型优于之前预测激活和抑制 DTI 的模型。目标特征向量的数据增强使该模型能够预测广泛可用药靶标的 DTI。我们的方法在训练集中未见靶标的独立数据集和明确定义阳性和阴性样本的高通量筛选数据集中取得了显著的性能。此外,我们的方法成功地重新发现了用于治疗 COVID-19 的药物的大约一半的 DTI。这些结果表明,AI-DTI 是一种实用的工具,可以指导药物发现过程并产生合理的假设,从而揭示未知的药物作用机制。
。cc-by-nc-nd 4.0国际许可证(未获得同行评审证书)获得的是作者/资助者,他已授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权所有,该版本发布于2024年1月9日。 https://doi.org/10.1101/2024.01.09.574787 doi:biorxiv preprint
图 2 口孵期间接触噪音会削弱母性照料。与对照组雌性 (B) 相比,暴露在噪音中的育雏雌性 (A) 更有可能同类相食 (绿色,33%) 和过早释放 (粉色,25%) 幼崽,从而导致育雏成功率降低 (C)。暴露在噪音中的雌性也比对照组雌性保留幼崽的时间长得多 (D)。早期释放:<10 dpf;正常:10 – 14 dpf;晚期释放:>14 dpf。N = 10 只对照组雌性和 12 只噪音育雏雌性,但只有 9 只对照组雌性和 5 只噪音雌性释放幼崽进行 D 中的测量。在 (D) 中,数据点绘制为空心圆,平均值 ± SD 绘制在每个组的侧面。不同的字母表示在 p < 0.05 时具有统计学意义
PB 1003 A biobank catalogue of transcriptomes and associated genetic effects based on 2,000 subjects uncovers the causal effects of Middle Eastern genetic variation and uncovers novel disease mechanisms .............................................................................................................................................................. 142
图 1 单细胞测序分析的一般工作流程。(a)通过分离原生质体(小绿圈)将组织或器官解离成单个细胞;(b)将原生质体装入封装单个原生质体(小绿圈)的微流体系统中,其中试剂用于标记具有不同条形码(较大的多色圆圈)的转录本,所述条形码可识别转录本来源的细胞,也可以通过此过程添加其他条形码,例如 UMI;(c)然后汇集带条形码的转录本并使用短读技术进行测序;(d)然后处理测序读取以根据文库制备期间添加的条形码序列将每个转录本分配给来源细胞; (e) 所有细胞的转录组都经过降维(例如 tSNE 或 UMAP),其中具有相似转录组谱的细胞将在二维空间中绘制得更紧密,而具有不太相似转录组的细胞将绘制得更远,并且可以通过算法识别具有相似转录组的细胞簇。在此示例中,图上的每个点代表一个细胞,点的颜色代表该细胞被分配到的簇。(f)细胞簇可以根据已知标记基因的丰度或与已建立细胞类型的转录组的整体相似性被表征为已知细胞类型;如果没有已知标记与观察到的转录组谱相匹配,细胞簇也可以被描述为未知的或新的。在此示例中,重建组织中的细胞被着色以反映图 (e) 中识别的假设转录组簇
转录本同工型是人类发育和疾病的关键动力。在散装和单细胞转录组中的全长同工型测序可以表征复杂的替代剪接,开放式读取框(ORF)的预测以及鉴定细胞类型特异性,等位基因特异性的同工型表达式。简短的读数只能提供基因级信息,并且通常呈现同工型的不完整或错误组装的表示。PACBIO®ISO-SEQ®方法和Kinnex™试剂盒利用高度准确的HIFI测序来捕获全长的转录本,而无需组装。这可以使同工型水平的转录组进行更高的分辨率图,这对于理解人类生物学和疾病中的功能性细胞多样性和动态表达至关重要。
蛤lam挖掘在香港的历史悠久,但不受管制的蛤挖掘活动耗尽了蛤lam种群并威胁到生态系统。种群基因组学对于揭示不同地理位置上蛤的连通性并提供必要的保护措施很有用。但是,香港只有有限数量的蛤s具有基因组资源。在这里,我们使用Pacbio Hifi和Omni-C读数的组合,介绍了香港,柔韧性和Meretrix petechialis的两个蛤s的染色体水平基因组组件。对于A. flexuosa,我们将基因组组装成19个伪色体,基因组大小为1.09 GB(支架N50 = 58.5 MB),BUSCO得分为94.4%。也使用本研究中产生的转录组预测了总共20,881个基因模型。对于叶柄杆菌,基因组主要组装成19个伪色体,基因组大小为1.04 GB(支架N50 = 53.5 MB),而BUSCO得分为95.7%。也使用本研究中产生的转录组预测了总共20,084个基因模型。本研究中建立的两个新的基因组资源将有助于进一步研究蛤lam的生物学,生态学和进化,并为保护措施和实施方面的证据决策建立基础。