肝细胞癌(HCC)是最致命的癌症之一。索拉非尼目前是FDA批准HCC的唯一可用的第一线分子靶向药物。但是,经常用索拉非尼治疗遇到一级和次要抵抗。HCC中发现的基因组改变代表了针对这种类型癌症开发新药物或新组合策略的潜在靶标。在这里,我们分析了HCC样品的TCGA数据库和诊所可用的相应靶向药物的基因组改变,以鉴定与索拉非尼结合使用时可能有希望的候选药物。我们的结果表明,在HCC中,IL6,JAK1,LEPR和RAF1相关途径通常会改变,这些途径针对医学实践中可用的药物。14个具有可用靶向药物的基因经常在HCC中改变。具有各自靶向药物的途径和基因靶标需要在临床试验中进一步评估,以确定其单独或与索拉非尼联合治疗HCC治疗中的治疗价值。总而言之,TCGA的分析确定了一系列具有靶向药物的途径,这些途径在HCC中改变了。与特定靶向药物的组合处理,具体取决于个体中发现的改变的途径,可以提供更好的治疗策略,最终将改善个体患者的生存。
当地和国际资金使 TCGA 能够支付 Dankoff Solar Products 公司围绕 Solar Force 活塞泵建造的两个系统的大部分设备费用。Plenty International 捐赠了一台借来的 Shurflo 潜水泵。Unity Avenue Fund 提供的大量赠款和英国卫理公会救济和发展基金向 TCGA 提供的赠款支付了活塞泵系统的余额。Green & Black 捐赠了一些额外资金来帮助 TCGA 进行重建,其中一部分用于购买管道、水箱、软管和两个太阳能电池板。
方法:通过访问TCGA,CGGA和GEPIA数据库获得KIF18B的表达数据,并通过Western Blot测定法和免疫组织化学进行了验证。从TCGA和CGGA数据库下载了神经胶质瘤RNA测序数据和临床信息,并进行了Kaplan-Plotter的生存分析和多变量COX回归分析,以在1、3和5年的CBIOPOPORTAL和METHSURV下绘制ROC存活曲线,用于仔细地检查Kifotostic of kif18b的预测值。CBIOPORTAL数据库和UALCAN数据库用于获得KIF18B共表达基因进行GO和KEGG富集分析,并使用基因集富集分析(GSEA)软件来探索GBM的KIF18B调节的信号通路。最后,通过使用计时器数据库和TCGA数据集研究了KIF18B和GBM Inftration之间的相关性。
实体肿瘤的表达谱。由于 LUAD 在我们的队列中占主导地位(> 80%),我们将 PDC 基因表达谱与 TCGA-LUAD 数据集(n = 230)进行了比较。正如预期的那样,PDC 基因组图谱与肿瘤样本相似,并与正常邻近组织区分开来(图 1B)[36]。PDC 和 TCGA 样本中的组成性体细胞基因突变相似。TP53、RB1 和 BRAF 突变的复发在 PDC 和 TCGA 样本中都得到了高度保留。PDC 中的 EGFR 突变频率较高,而 KRAS、KEAP1 和 STK11 突变的复发低于 TCGA 样本(图 1B)。因此,在 PDC 模型中经常观察到 TP53(49%)、EGFR(31%)和 RB1(8%)的体细胞突变(图 1C)。此外,MET (10%)、CDK4 (6%)、
肝肝细胞癌(LIHC)是消化道最常见的恶性肿瘤之一。在全球范围内,LIHC的发病率在恶性肿瘤发病率和死亡率中排名第四[1]。lihc严重影响人们的生活和健康。目前,LIHC的总体预后不令人满意。主要原因包括内部疾病,高度恶性肿瘤,复发和转移[2]。因此,鉴定LIHC特异性生物标志物可以帮助预测和监测疾病的进展,更重要的是,通过实施早期干预,可以减少可能发展为侵略性疾病的病例[3]。癌症基因组图集项目(TCGA)由国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)共同推出。TCGA数据库包含33个肿瘤项目的基因组数据,并向所有研究人员提供原始测序数据[4]。TCGA发布了许多LIHC癌患者的mRNA测序数据。本研究旨在通过分析从TCGA数据库下载的高吞吐量mRNA数据来确定LIHC样品和正常相邻样品之间的mRNA表达差异。我们使用蛋白质相互作用[5]和Cyto-Hubba [6]来找到轮毂基因-Dync1i1。此外,我们评估了Dync1i1的前进价值,并分析了Dync1i1的可能生物学功能,这些生物学功能有望为LIHC的基本分子机制提供新的见解。
交叉数据测试对于检查机器学习(ML)模型的性能至关重要。但是,大多数关于转录组和临床数据建模的研究仅进行了数据内测试。还不清楚归一化和非差异表达基因(NDEG)是否可以改善ML的跨数据库建模性能。因此,我们旨在了解归一化,NDEG和数据源是否与ML在跨数据库测试中的性能有关。使用了TCGA和ONCOSG中肺腺癌病例共享的转录组和临床数据。仅使用转录组数据就达到了最佳的跨数据库ML性能,并且在统计学上比使用转录组和临床数据更好。最佳平衡精度(BA),曲线下的面积(AUC)和在TCGA上的ML算法培训中的精度明显高于ONCOSG的测试,而在ONCOSG上进行了测试并在TCGA上进行了测试(所有人的P <0.05)。归一化和NDEG在两个数据集中大大改善了数据集中的ML性能,但在跨数据库测试中却没有。引人注目的是,单独对ONCOSG的转录组数据进行建模优于建模转录组和临床数据,而TCGA中包括临床数据的转录组和临床数据并没有显着影响ML性能,这表明TCGA中转录量数据的临床数据值有限或转录量的倒数影响。在数据内测试中的性能提高更为明显。在比较的六个ML模型中,支持矢量机是在数据集和跨数据库测试中最常见的表现最常见的。因此,我们的数据显示了数据源,归一化和NDEG在建模转录组和临床数据中与数据集和跨数据库ML性能相关。
Comprehensive analysis of microbial content in whole-genome sequencing samples from The Cancer Genome Atlas project Yuchen Ge 1,2,* , Jennifer Lu 1,3 , Daniela Puiu 1,2 , Mahler Revsine 1,4 , and Steven L. Salzberg 1,2,3,4,* 1 Center for Computational Biology, Johns Hopkins University, Baltimore, Maryland, United States 2 Department of Biomedical Engineering, Johns Hopkins University 3 Department of Pathology, Johns Hopkins School of Medicine 4 Department of Computer Science, Johns Hopkins University 5 Department of Biostatistics, Johns Hopkins University *Correspondence to: salzberg@jhu.edu, yge15@jhmi.edu Abstract In recent years, a growing number of publications have reported the presence of microbial species in human tumors and of mixtures of microbes that appear to对不同的癌症类型高度特异。我们最近对三种癌症类型数据的重新分析表明,据报道,技术错误导致了许多微生物物种的错误报道,据报道在癌症基因组图集(TCGA)项目的测序数据中发现了许多微生物物种。在这里,我们扩展了分析,涵盖了目前从癌症基因组图集(TCGA)项目中获得的所有5,734个全基因组测序(WGS)数据集,其中涵盖了25种不同类型的癌症。我们使用更新的计算方法和数据库分析了微生物含量,并将我们的结果与癌症中细菌,病毒和真菌的两项主要研究的结果进行了比较。引言最近的许多研究使用了癌症基因组图集(TCGA)项目创建的庞大测序资源来探索微生物物种在癌症中的潜在作用。我们的结果扩展并加强了我们最近的发现,这表明微生物的存在远小于以前报道的小说,并且在TCGA数据中鉴定出的大多数物种根本不存在,或者是已知的污染物,而不是居住在肿瘤中的微生物。作为这项扩展分析的一部分,为了帮助他人避免被有缺陷的数据误导,我们发布了一个数据集,其中包含在所有5,734个TCGA样品中检测到的细菌,病毒,古细菌和真菌的详细读取计数,该样本可以作为未来研究的公众参考。尽管收集了大多数TCGA数据的目的是研究人类遗传变异或基因表达,但肿瘤中存在的微生物(包括病毒,细菌和真菌 - 可能)也被捕获为测序实验的偶然副作用。在人类肿瘤样本中识别微生物,其中绝大多数生物质预计是人类的,需要非常小心,以免被污染物,测序矢量或其他可能存在于数据中的污染物,测序矢量或其他文物。在这项研究中,我们的目标是对TCGA项目的数千个全基因组测序(WGS)样本进行详尽而细致的调查,目的是识别这些样品中的任何微生物。通过公开获得结果,我们希望刺激更多的研究,这些研究可能会放大或反驳各种肿瘤类型中微生物的最新发现。我们还将我们的发现与最近使用许多相同TCGA数据的研究结果进行了比较,并描述了在某些情况下受到污染影响的发现。这些研究以及其他依赖数据的研究已牵涉到癌症各个方面的微生物组,从调节肿瘤微环境到影响治疗
在TCGA数据中通过单因素cox-Lasso回归分析筛选出9个与预后相关的EMT-RDGs,计算各基因得分,以各基因表达量*风险得分构建CRC风险预后模型,将GEO数据对应值代入公式验证模型效果(Riskscore=TCF15*0.006387445+SIX2*0.000957825+NOG*0.016976643+FGF8*0.047052635+TBX5*0.00178245+SNAI1*0.000456714+PHLDB2*1.08E-05+TIAM1*6.55E-05+TWIST1*6.70E-05)。将GEO数据对应值代入上式验证模型,TCGA训练集低危组总生存期(OS)较长(图2A、C)、GSE40967(HR=0.54857,95%CI=0.41328-0.72814)(图3B)、GSE12954组
分子分类,这表明GEA不再被视为一个实体,而应被视为具有多个亚组的异质疾病。在这些分类中,癌症基因组图集(TCGA)7和亚洲癌症研究小组(ACRG)8是最重要的。每个分类都以自己的特殊性和结果区分了四个不同的胃癌(GC)亚型。尤其是TCGA包括Epstein- Barr病毒阳性(EBV; 9%),微卫星不稳定性(MSI; 21%),基因组稳定(GS; 20%)和染色体不稳定性(CIN; 50%),7,而ACRG(23%),Microsatellite(23%),Microsatellite稳定,MICRABLE稳定,MICRATITES MICATS STITE STITE,MS/TP53(MS/TP53),; p53突变(MSS/ TP53 +; 26%)和微卫星稳定,具有上皮 - 间质转变(MSS/ EMT; 15%)。8