MLSEQ是用于应用机器学习算法在下一代RNA-sequecting(RNA-SEQ)数据中应用的综合软件包。研究人员出于各种目的呼吁MLSEQ,其中包括疾病结果的预测,最佳特征子集(基因,转录本,其他同工型)的识别以及根据其预测重要性对特征进行分类。使用此软件包,研究人员可以上传其原始的RNA-seq计数数据,预处理数据并执行各种机器学习算法。预处理方法包括DESEQ平均值(TMM)归一化方法的DESEQ中值和修剪平均值,以及每毫米读取计数的对数(log-CPM),方差稳定转换(VST),正规化对数转换(RLOG)和方差模型在观察级别(voy)级别(voy)变换(voy)。归一化方法可用于纠正系统变化。转换方法可用于使离散的RNA-seq数据在层次上更接近微阵列,并进行基于微阵列的层化算法。当前,MLSEQ软件包包含90多个基于微阵列的分类器,包括最近开发的基于VOOM的判别分析分类器。除了这些分类器外,MLSEQ软件包还包括基于离散的分类器,例如Poisson线性判别分析(PLDA)和负二项式线性判别分析(NBLDA)。在预处理数据上,研究人员可以构建分类模型,对这些模型进行参数优化,评估模型性能并比较不同分类模型的性能。此外,可以通过构建模型预测测试样本的类标签。MLSEQ是用户友好,简单,目前是文献中针对RNA-Seq分类开发的最全面的软件包。要开始使用此软件包,用户需要上传其计数数据,其中包含每个样本映射到每个成绩单的读数数。可以从RNA-SEQ实验中获得此类计数数据,也可以从其他测序实验(例如芯片测序或元基因组测序)中获得。提出了此小插图,以指导研究人员如何使用此软件包。
主要关键词