摘要:长期以来,心血管疾病(CVD)仍然是全球死亡的主要原因之一。新技术(例如机器学习(ML)算法)的兴起可以帮助早期检测和预防开发CVD。这项研究主要关注不同ML模型来通过使用个人生活方式因素来确定一个人开发CVD的风险。这项研究在2021年从世界卫生组织(WHO)中使用,提取和处理了438,693条记录作为行为风险因素监视系统(BRFSS)的数据。然后将数据分配为训练和测试数据的比率为0.8:0.2,以具有未知数据以评估将要训练的模型。这项研究面临的一个问题是类别之间的不平衡,这是通过使用采样技术来解决的,以平衡ML模型的数据来处理和理解。使用10层化的倍数交叉验证测试评估ML模型的性能,最佳模型是Logistic回归(LR),F1得分为0.32564。然后,对logistic回归模型进行了高参数调整,并获得0.3257的最佳分数,C = 0.1。特征的重要性也是从LR模型中产生的,影响最大的特征是性,糖尿病和个人的一般健康。获得最终的LR模型后,然后在测试数据中对其进行评估,并获得0.33的F1分数。混淆矩阵也用于更好地可视化性能。简介和,LR模型正确分类了79.18%的CVD和73.46%的健康人。AUC-ROC曲线还用作性能度量标准,LR模型的AUC得分为0.837。逻辑回归模型可以在医疗领域中使用,可以通过向数据添加医学属性来更多地利用。总体而言,这项研究为我们提供了一个洞察力和重要的知识,可以通过仅使用个人的个人属性来帮助预测CVD的风险。关键字:机器学习算法,心血管疾病,逻辑回归,不平衡分类,超参数调整。