糖尿病具有严重的长期影响,并且是全球健康方面的关注。及时识别对于改善患者预后至关重要。这项工作使用临床数据使用监督的机器学习算法诊断糖尿病。各种数据集用于训练诸如决策树,天真的贝叶斯,k-nearest邻居,随机森林,梯度提升,逻辑回归和支持向量机等训练模型。通过有效的预处理技术(如标签编码和归一化),可以提高模型的精度。各种特征选择方法用于优先考虑风险指标。该模型在两个不同的数据集上进行了广泛的测试,以评估其性能。的准确性提高(取决于数据集和机器学习技术)的范围从2%到12%。选择最佳的算法是为了额外开发的。Python的烧瓶用于将模型纳入使用Docker部署的在线程序。研究表明,将基于机器学习的分类与适当的数据制备管道的整合可以有效,一致地预测糖尿病,从而促进及时诊断并改善健康后果。
主要关键词