今年夏天,我曾在卢森堡的生物医学研究组织卢森堡卫生研究院担任生物信息学和数据科学实习生。在医学信息学系的生物信息学和AI团队中,我致力于分析基因型 - 组织表达(GTEX)数据集,并构建一个模型,从组织病理学图像嵌入中预测基因表达。通过主成分分析,T分配的随机邻居嵌入(T-SNE)以及均匀的歧管近似和投影(UMAP),我确定了组织样品之间基因表达和组织病理学图像嵌入特征,从而确定了组织样本之间的差异和相似性。进一步研究了基因表达与图像嵌入之间的关系,我训练并测试了2个具有线性和套索回归的预测模型。结果表明,通过其组织病理学图像嵌入更准确预测的基因在大脑(小脑,皮层)和肌肉(光滑,骨骼,心脏)组织中高度表达。向团队介绍我的工作,我根据收到的建议和评论进一步提高了模型和结论。