除了已知的 ESR1 热点突变外,我们还观察到转移性富集了以前未报告的、配体结合结构域中较低流行率的突变,这意味着这些突变也可能具有功能性。此外,单个 ESR1 热点在特定的转移组织和组织学中显著富集,表明这些突变之间存在功能差异。所有转移瘤中富集的其他改变包括 CDK4 调节因子 CDKN1B 的功能丧失和转录因子 CTCF 的突变。在特定转移部位富集的突变通常反映靶组织的生物学,可能是对局部环境生长的适应。这些包括脑转移瘤中的 PTEN 和 ASXL1 改变以及皮肤中的 NOTCH1 改变。我们观察到肺转移瘤中 KRAS 、 KEAP1 、STK11 和 EGFR 突变的富集。然而,这些肿瘤中其他突变的模式表明,这些是被误诊的肺原发性肿瘤而不是乳腺转移瘤。
1 转化医学肿瘤学组 (Oncomet)、圣地亚哥德孔波斯特拉健康研究所 (IDIS)、圣地亚哥德孔波斯特拉大学医院 (SERGAS)、Trav。 Choupana s / n,15706 圣地亚哥德孔波斯特拉,西班牙; carlos.casas_95@hotmail.es(抄送); Alicia.Abalo.Pineiro@sergas.es (AA); jfcueva@gmail.com (JC); miguel.abal.posada@sergas.es (MA)2 基金会 MD 安德森国际,C/G ó mez Hemans 2, 28033 马德里,西班牙; eva.diaz@mdanderson.es (编辑) saraoltra4@gmail.com (单点登录); gmoreno@iib.uam.es (GM-B.) 3 巴塞罗那自治大学 Vall d'Hebron 研究所 (VHIR) 妇科生物医学研究组,119-129 Pg。西班牙巴塞罗那 Vall d'Hebron, 08035; Christian.pablo@vhir.org (CPM); carlos.lopez@vhir.org (CLG); scabrera.vhebron@gmail.com (南卡罗来纳州); eva.colas@vhir.org (EC); antonioimma@yahoo.com (AG-M.) 4 Nasasbiotech, SL, Canton Grande 3, 15003 拉科鲁尼亚, 西班牙; lorena.alonso@nasasbiotech.com (洛杉矶-A.) alba.ferreiros@nasasbiotech.com (AF) 5 西班牙马德里 28029 MD 安德森癌症中心妇科; jsantiagog@hotmail.es 6 圣地亚哥德孔波斯特拉大学医院(SERGAS)妇科,Trav。 Choupana s / n,15706 圣地亚哥德孔波斯特拉,西班牙;邮箱:vitosampayo@hotmail.com(VS); efi.arias@yahoo.com(EA); ana.vilar@telefonica.net (AV) 7 圣地亚哥德孔波斯特拉大学医院(SERGAS)病理学系,Trav。 Choupana s / n,15706 圣地亚哥德孔波斯特拉,西班牙; marta.bouso.montero@sergas.es 8 马德里癌症研究中心 (CIBERONC),Monforte de Lemos 3-5, 28029 马德里,西班牙 9 马德里自治大学 (UAM) 生物化学系,‘Also-Also, ICSPO’生物医学研究所,llo 4, 28029 马德里,西班牙 * 通信地址:Laura.muinelo.romay@sergas.es;电话:+ 34-981-955-073
。cc-by-nc 4.0国际许可(未获得同行评审证明),他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2025年2月15日。 https://doi.org/10.1101/2025.02.11.637683 doi:Biorxiv Preprint
18补充图1。通过半对准读数的软剪切引入的偏差。显示了六个读取与包含A/T变体的参考序列的比对。Bold Black T和Red A分别表示参考和替代等位基因。软剪裁由罢工表示。无软剪切,三个读数将支持参考(t)和替代(a)等位基因,从而导致无偏变体等位基因频率(VAF)为3/6 = 0.5。(a)读取R3被软剪切,直到获得参考的连续五次匹配为止。剪辑后,只有两个读数支持备用等位基因(a),而三个读取支持参考等位基因(t),导致偏置2/5 = 0.4的偏置VAF。(b)FIXVAF剪辑所有读数均按五个基础读取,无论它们是否包含变体位点还是支持参考或替代等位基因。读取支持参考等位基因和备用等位基因的读取现在被五个基部夹住。在此示例中,FIXVAF将计算2/4 = 0.5的VAF,因此消除了偏差。
来自基因组或外显子组测序的数据。 然而,对大型基因组足迹的取样不可避免地会导致许多通过初始过滤步骤进行的候选疾病相关的变体。 因此,制定自动化策略以减少假阴性和假阳性结果,以优化使用临床医生和科学家的时间,并将注意力集中在具有临床意义最高的可能性最高的变体上。 开发了Gene2phenotype(G2P)数据库(1),以实现变异呼叫的高通量过滤和可能与临床相关的变体的优先级(2)。 G2P已成功用于许多诊断性临床和研究应用中,例如DDD(解密的发育障碍)研究(3),眼睛疾病(4)和遗传性心脏疾病的评估(5)。 g2p通过基因型基因型 - 机理 - 疾病 - 局部 - 螺纹(2)定义了单基因 - 疾病 - 疾病的关联(LGMDE)。 这允许精确定义给定条件的临床表型和分子基础。 G2P于2012年开发,主要是与发育障碍(DDG2P)相关的所有已知基因座的数据库。 DDG2P在过去十年中的大小增加了两倍多,现在覆盖了2500多个位置(6)。 该系统旨在跨疾病领域推广,现在已经扩展到包括癌症,心脏,眼睛,骨骼和皮肤疾病(图1)。 每个面板都是可自由下载的(1),全面且由专家策展人积极策划。 为了方便起见,可以在多个面板中存在 G2P条目。来自基因组或外显子组测序的数据。然而,对大型基因组足迹的取样不可避免地会导致许多通过初始过滤步骤进行的候选疾病相关的变体。因此,制定自动化策略以减少假阴性和假阳性结果,以优化使用临床医生和科学家的时间,并将注意力集中在具有临床意义最高的可能性最高的变体上。开发了Gene2phenotype(G2P)数据库(1),以实现变异呼叫的高通量过滤和可能与临床相关的变体的优先级(2)。G2P已成功用于许多诊断性临床和研究应用中,例如DDD(解密的发育障碍)研究(3),眼睛疾病(4)和遗传性心脏疾病的评估(5)。g2p通过基因型基因型 - 机理 - 疾病 - 局部 - 螺纹(2)定义了单基因 - 疾病 - 疾病的关联(LGMDE)。这允许精确定义给定条件的临床表型和分子基础。G2P于2012年开发,主要是与发育障碍(DDG2P)相关的所有已知基因座的数据库。DDG2P在过去十年中的大小增加了两倍多,现在覆盖了2500多个位置(6)。该系统旨在跨疾病领域推广,现在已经扩展到包括癌症,心脏,眼睛,骨骼和皮肤疾病(图1)。每个面板都是可自由下载的(1),全面且由专家策展人积极策划。G2P条目。每个G2P的条目都由临床和科学专家通过详细评估同行评审的文献进行了详细评估。对于新描述的基因疾病关联,通过每月对相关期刊的手动搜索来确定手稿。案例报告/案例系列包含详细的人类表型数据的优先级。这是一个重要的过程,鉴于可用于不同基因疾病主张的证据的显着差异。分配了此主张的固定置信度,以优先考虑临床相关的诊断变体。
警告!生物危害。生物样品,例如人体和其他动物的组织,体液,传染剂以及血液,有可能传播传染病。使用适当的安全设备(例如物理遏制设备)在设备齐全的设施中进行所有工作。安全设备还可以包括用于个人保护的物品,例如手套,外套,礼服,鞋套,靴子,呼吸器,面罩,安全眼镜或护目镜。在使用潜在的生物危害材料之前,应根据适用的监管和公司/机构要求对个人进行培训。遵循所有适用的地方,州/省和/或国家法规。在处理实验室环境中处理生物样品时,以下参考文献提供了一般指南。
大型语言模型(LLM)在广泛的科学领域,尤其是在生物医学科学中都产生了变革性的影响。就像自然语言处理的目标是了解单词序列一样,生物学的主要目标是了解生物学序列。基因组语言模型(GLM)是在DNA序列上训练的LLM,具有显着提高我们对基因组的理解以及各种量表的DNA元素如何相互作用以产生复杂功能的潜力。为了展示这种潜力,我们突出了GLM的关键应用,包括功能约束预测,序列设计和转移学习。尽管最近取得了显着的进展,但发展有效而有效的GLM却带来了许多挑战,尤其是对于具有较大且复杂基因组的物种。在这里,我们讨论了开发和评估GLM的主要考虑因素。