学生研究员将分析来自两个癌症药物筛选实验的大型复杂数据集。除了细胞系的基因组信息外,数据集还将包括数百种药物对数百种不同细胞系的有效性信息。药物筛选数据包含广泛的测量误差,这会导致分析过程中出现问题。为了改善个性化癌症治疗的最终目标,学生研究员将调整和改进测量误差检测方法,并建立预测算法来确定哪些药物对哪些类型的癌症最有效。学生研究员将学习处理各种现实世界的杂乱数据(例如基因表达)、整合不同类型的复杂数据的方法以及各种机器学习算法。需要具备 R 的基本知识,学生应该期望在项目过程中学习更多 R。
主要关键词