详细内容或原文请订阅后点击阅览
建立现成的癌症数据库
研究人员建立了一个癌症数据库,结合了 32 种癌症类型的 4 种分子数据,以便能够在癌症研究中一致使用机器学习。“建立现成的癌症数据库”一文首先出现在 Sciworthy 上。
来源:Sciworthy使用机器学习技术的计算癌症研究人员面临着一个基本问题。存在大量用于训练机器学习模型的数据,但由于数据文件的格式、命名、结构和其他属性不一致,这种训练需要进行大量处理。这意味着当科学家使用不同的癌症类型和数据清理步骤时,所得模型的行为会有所不同。
研究人员观察到,可用数据集和可用数据集之间的差距对于没有经过专门生物信息学培训的科学家来说是一个障碍。处理策略的差异也使得无法公平地比较新的机器学习方法并为给定的癌症研究任务选择性能最好的方法,例如将患者样本分类为良性或恶性。
因此,日本和美国的研究人员合作创建了一个综合数据库,其中包含来自 8,000 多名癌症患者的遗传和分子信息,专为机器学习应用而设计。他们将数据库命名为 MLOmics。就像一个组织良好的图书馆,其中的书籍已经分类、标记并可供阅读,MLOmics 提供计算机模型可以立即使用的癌症数据,无需进行大量处理。
为了构建 MLOmics,他们从名为“癌症基因组图谱”的公开数据库中收集了 32 种癌症类型的患者样本。对于每位患者,他们收集了 4 种分子数据。这些数据包括两种类型的DNA产物,统称为转录组数据,重复DNA区域的数据,称为拷贝数变异,以及化学DNA标签的数据,称为甲基化。对于转录组数据,团队标记了其实验来源,这会影响数据质量,消除非人类样本中的污染,并删除未标记的值。
帖子浏览量:690
