癌症的数学建模并不新鲜[47],然而这个领域在世纪之交才真正爆发。但在那时,绝大多数模型旨在揭示、阐明或解释与肿瘤生长、血管生成和侵袭有关的一些机制[22]。它们与实验数据的联系很少,而且主要涉及生长动力学。这些模型逐渐演变成与两大进步有关:第一点是机器计算能力的提高,使得人们能够以数值实验的方式进行模拟;第二点是成像技术的进步,使得人们能够更广泛地获取数据。随着时间的推移,模型逐渐变得更加“信息丰富”,这意味着它们整合了实验测量的参数,并根据实验(体内或体外)观察进行验证。虽然模型开发人员主要位于数学、计算或工程部门,但现在在医院基础设施的核心位置也并不罕见。如今,模型在癌症领域被广泛用于实现四个主要目标:改善诊断、改善治疗、识别和开发新药以及带来有关疾病发展的新知识。这些目标有助于使模型更接近临床。模型是在系统肿瘤学 [ 61 ] 的背景下开发的,该系统 - 即系统生物学 [ 69 ] - 提供了一个全面的框架,可以在其中研究癌症,以真正理解和联系其从基因到细胞的多个方面
虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注,并在过去二十年中产生了大量文献,但直到很晚且相对较新的时候,它才有效地出现在无监督框架中。第一种方法是基于模型的,这些方法自然适合包括套索(L 1)和相关惩罚,并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序(混合由方差相等的高斯分布组成)或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中,没有对底层分布做出任何假设,在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法,后来扩展到每个聚类内的特征选择,并通过一致性结果得到加强,[4] [5] [6]。我们还要提到,最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此,上面引用的所有方法本质上都是为数值数据设计的,而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题,提到了使用虚拟变量进行转换使其数字化的可能性。但是,这个处理步骤并不是那么直接,因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者
