如何使用 PyTorch 根据 DNA 拷贝数对肺癌亚型进行分类

逐步介绍从数据科学家的角度了解癌症。如何使用 PyTorch 根据 DNA 拷贝数对肺癌亚型进行分类一文首先出现在 Towards Data Science 上。

来源:走向数据科学

我将演示如何使用简单的 PyTorch 分类器构建能够区分癌症类型的卷积神经网络。用于训练的数据和代码是公开的,训练可以在个人计算机上完成,甚至可以在 CPU 上完成。

癌症是我们的细胞在生命过程中积累信息错误而导致的一种不幸的副作用,导致不受控制的生长。作为研究,我们调查这些错误的模式,以便更好地了解这种疾病。从数据科学家的角度来看,人类基因组是一个大约 30 亿个字母长的字符串,其中包含字母 A、C、G、T(即每个字母 2 位信息)。复制错误或外部事件可能会删除/插入/更改字母,从而导致突变并可能破坏基因组功能。

然而,个体错误几乎不会导致癌症的发生。人体有多种机制来预防癌症的发生,包括专用蛋白质——所谓的肿瘤抑制因子。细胞必须满足一系列必要条件,即所谓的“癌症标志”,才能实现持续生长。

“癌症的标志”
癌症标志 —左侧一组代表了癌症需要积累以实现持续增殖生长的一组一致认可的特征。图片来源:Hanahan D. 癌症标志:新维度。癌症发现。 2022 年 1 月;12(1):31–46。
癌症标志 —左侧一组代表了癌症需要积累以实现持续增殖生长的一组一致认可的特征。信用: Hanahan D. 癌症标志:新维度。癌症发现。 2022 年 1 月;12(1):31–46 HPV 病毒
具有新形成的染色体的乳腺癌细胞,其颜色与其原始染色体相匹配。图片来源:剑桥大学病理学系的 Mira Grigorova 和 Paul Edwards。
Mira Grigorova 和 Paul Edwards,剑桥大学病理学系 -e