动机:基因表达数据通常在癌症研究和机器学习的交集中使用,以更好地了解肿瘤组织的分子状态。深度学习预测模型已用于基因表达数据,因为它们的扩展能力和消除了对手动功能工程的需求。但是,基因表达数据通常非常高维,嘈杂,并且呈现较少的样本。这对学习算法提出了重要的问题:模型通常过度拟合,学习噪音并努力捕获与生物学相关的信息。在本文中,我们利用嵌入基因相互作用图(例如蛋白质 - 蛋白质相互作用(PPI)网络)中的外部生物学知识来指导预测模型的构建。结果:我们提出了基因相互作用网络约束构建(GINCCO),这是一种无监督的方法,用于自动构造基因表达数据的计算图模型,该方法受到基因相互作用网络的先验知识在结构上约束。我们在案例研究中采用了这种方法,该方法将PPI网络纳入癌症表型预测任务。我们的计算图是在PPI网络上使用拓扑聚类算法在结构上构建的,PPI网络上结合了蛋白质复杂发现网络生物学研究引起的电感偏见。GINCCO计算图中的每个实体都代表生物学实体,例如基因,候选蛋白质复合物和表型,而不是神经网络的任意隐藏节点。这为模型正则化提供了一种与生物学相关的机制,从而产生了强大的预测性能,同时大大减少了模型参数的数量,并实现了对目标表型的影响力基因集的引导后富集分析。我们分析各种CER表型的实验表明,尽管模型复杂性大大降低了,但Gincco经常超过支持向量机,完全连接的多层感知器(MLP)和随机连接的MLP。可用性和实现:https://github.com/paulmorio/gincco包含我们方法的源代码。我们还在https://github.com/ paulmorio/protclus中发布了带有用于蛋白质复杂发现算法的库。此存储库包含本文使用的聚类算法的实现。联系人:paul.scherer@cl.cam.ac.uk补充信息:补充数据可在Online BioInformatics获得。
主要关键词