人类遗传变异影响诸如疾病易感性等性状的人类遗传变异经常通过以高细胞类型的特异性方式调节基因表达来起作用。能够直接从DNA序列预测基因表达的计算模型可以帮助解释表达调节变体的解释,而机器学习模型现在在捕获远程人体转录调控所需的较大序列环境中运行。然而,现有的谓词集中在批量转录测量上,其中基因表达异质性可以淹没在广泛定义的细胞类型中。在这里,我们使用转移学习框架,SEQ2细胞,利用预训练的表观基因组模型从单细胞分辨率的大序列上下文中进行基因表达预测。我们表明,SEQ2CELLS捕获了超出伪膨胀数据的分辨率的细胞特异性基因表达。使用SEQ2CELLS进行变异效应预测揭示了带注释的细胞类型中的异质性,并在细胞种群之间启用了变异效应的硅化转移。我们证明了单细胞分辨率下基因表达和变异效应预测的挑战和价值,并为解释基因组变异的解释提供了毫不妥协的分辨率和规模。
主要关键词