摘要 机器学习方法在医疗保健研究中越来越受欢迎。这种向综合数据科学方法的转变需要对现有的医疗保健数据分析师队伍进行专业发展。为了促进这种平稳过渡,需要开发教育资源。真实的医疗保健数据集对于医疗保健数据分析和培训目的至关重要,但它存在许多障碍,包括财务、道德和患者保密问题。模拟现实世界复杂性的合成数据集提供了简单的解决方案。所呈现的合成数据集反映了成年人口中心脏病发作和中风的常规收集的初级保健数据。使用此合成数据集的培训体验得到了提升,因为数据包含了常规收集的初级保健系统中遇到的许多实际挑战,例如缺失数据、信息审查、交互、变量不相关性和噪声。
主要关键词