不平衡的数据集对神经科学、认知科学和医学诊断等领域构成了重大挑战,在这些领域中,准确检测少数类别对于稳健的模型性能至关重要。本研究以 DEAP 数据集中的“喜欢”标签为例,解决了类别不平衡问题。这种不平衡经常被先前的研究忽视,这些研究通常侧重于更平衡的唤醒和效价标签,并主要使用准确度指标来衡量模型性能。为了解决这个问题,我们采用了旨在最大化曲线下面积 (AUC) 的数值优化技术,从而增强了对代表性不足的类别的检测。我们的方法从线性分类器开始,与传统的线性分类器(包括逻辑回归和支持向量机 (SVM))进行了比较。我们的方法明显优于这些模型,召回率从 41.6% 提高到 79.7%,F1 分数从 0.506 提高到 0.632。这些结果强调了通过数值优化实现 AUC 最大化在管理不平衡数据集中的有效性,为提高在样本外数据集中检测少数但关键类别的预测准确性提供了有效的解决方案。
主要关键词