摘要:在机器学习和数据科学领域中,数据集的不平衡问题提出了一个重大挑战,通常会导致偏见的模型和不准确的预测。这项研究引入了一种旨在减轻数据不平衡影响的新技术,从而增强了各种指标的模型性能。通过严格检查现有的不平衡校正方法,本研究确定了关键差距,并提出了一种创新方法:平衡数据技术(BDT),将不足的采样,过度抽样和算法调整方法结合在一起。在多个不平衡数据集中采用全面的实验设置,与既定方法相比,该技术表现出了卓越的性能,这可以提高准确性,精度和召回分数。本文详细介绍了从理论基础到实际实施和测试的技术的开发过程。这项研究的含义是深远的,为数据不平衡的领域提供了潜在的改进。通过解决这个基本问题,该提出的技术有助于进步更公平,更有效的机器学习模型。
主要关键词