摘要。这项研究使用三种不同的机器学习算法来构建用于糖尿病预测的模型,并比较每个模型的准确性,这些算法是K最近的邻居(KNN),逻辑回归和特质梯度提升(XGBoost)。这项研究的目标是找到一种用于糖尿病预测的精确算法,这确实是为医生诊断糖尿病的导电性。以这种方式,患者可以按时获得适当的治疗。在构建模型之前,数据集是通过标准缩放和综合少数族裔过度采样(SMOTE)来进行处理的,以平衡类。然后,使用网格搜索简历来找到模型的最佳参数。最后,结果表明,KNN的精度为82%,其次是XGBoost的精度,为79.87%,而Lo-Cistic回归为75.5%。KNN算法的优点是,它仅考虑训练样本与新样本之间的距离,这些距离将在没有任何其他计算的情况下预测。结果,KNN在这三种算法中表现出了最佳性能。将来,本研究可以扩大数据集的大小并尝试更多参数,以便在糖尿病预测模型上获得更高的准确性。
主要关键词