该项目着重于使用Python设计强大的信用卡欺诈检测系统,利用其丰富的数据科学库和框架生态系统。主要的挑战在于解决欺诈数据集固有的极端类不平衡,在该数据集中,合法交易大大超过了欺诈行为(通常不到总数据的1%)。这种不平衡会偏向模型的性能,从而导致较高的假阴性率和传统准确度指标无效。为了克服这一点,探索了诸如综合少数群体过采样技术(SMOTE),类加权和异常检测算法之类的技术,以增强对欺诈模式的模型敏感性。
摘要:传统发电厂的退役和基于逆变器的可再生能源技术的安装降低了整个电力系统的惯性,增加了系统频率变化率 (RoCoF)。这些预期的高 RoCoF 值缩短了在发生负荷削减或发电量削减之前所需的时间响应。在未来可再生能源在电力系统中占主导地位的情景中,同步机器在容量和时间响应方面满足此类条件的能力是不确定的。通过模拟两种具有不同电网规模和主要备用响应的情景,评估了基于逆变器的快速功率储备和合成惯性的实施情况。作为主要结果,获得的结果是,对于高达 40% 的不平衡,无论同步响应和电网规模如何,渗透率超过 80% 的基于逆变器的发电的快速功率储备的完全激活时间都需要为 100 毫秒或更短,这意味着当前的频率测量技术和快速功率储备部署时间无法确保高度不平衡条件下的系统稳定性。在不太不平衡的条件下,欧洲电网变得至关重要,不平衡程度从 3% 开始,非同步份额为 60%。
不平衡的数据集对神经科学、认知科学和医学诊断等领域构成了重大挑战,在这些领域中,准确检测少数类别对于稳健的模型性能至关重要。本研究以 DEAP 数据集中的“喜欢”标签为例,解决了类别不平衡问题。这种不平衡经常被先前的研究忽视,这些研究通常侧重于更平衡的唤醒和效价标签,并主要使用准确度指标来衡量模型性能。为了解决这个问题,我们采用了旨在最大化曲线下面积 (AUC) 的数值优化技术,从而增强了对代表性不足的类别的检测。我们的方法从线性分类器开始,与传统的线性分类器(包括逻辑回归和支持向量机 (SVM))进行了比较。我们的方法明显优于这些模型,召回率从 41.6% 提高到 79.7%,F1 分数从 0.506 提高到 0.632。这些结果强调了通过数值优化实现 AUC 最大化在管理不平衡数据集中的有效性,为提高在样本外数据集中检测少数但关键类别的预测准确性提供了有效的解决方案。
大脑中风是普遍死亡的第二大大量原因,在过去几年中一直是公共卫生的主要关注。借助机器学习技术,可以访问各种冲程警报的早期检测,这可以有效防止或减少中风。医学数据集在其类标签上经常不平衡,倾向于预测少数群体的趋势。在本文中,研究了中风的潜在危险因素。此外,还采用了四种独特的方法来改善中风数据集中少数群体的分类,这是合成重量投票分类器,合成的少数群体过度采样技术(SMOTE),主要组成部分分析,具有K-Means聚类(PCA-KMEANS)的主要成分分析(PCA-KMEANS),局灶性损失,与深度神经网络(COMPAL SERVANCY)(COMPAR)(DNN)(DNN)(DNN)(DNN)(DNN)(DNN)(DNN)。通过分析结果,具有DNN-局灶性损失的Smote和PCA-KMEANS最适合有限的大型严重不平衡数据集(例如,中风数据集),这是2-4倍以优于Kaggle的工作。关键字:不平衡数据集,中风预测,集合权重投票分类器,Smote,dnn的焦点损失,PCA-KMEANS
中国在中等收入阶段的经济增长放缓引起了广泛的关注。基于对经济结构的分析来解释经济增长的下降趋势,这项研究扩大了Solow-Swan模型,以研究结构性失衡,并评估了它们在不同阶段和地区对经济下滑的结构转型期间的影响。考虑到生产,分销和消费的过程,从1997年到2017年,为中国的国家和县水平选择了六种结构,包括部门结构,人口结构,投资和消费结构,进出口的出口结构,城市农村收入结构和财务结构。研究发现,中国的全面经济结构在中等收入阶段之前和之后有显着不同,结构性奖金往往会下降。结构性不平衡提出了一种U形模式,即首先降低,然后增加,而对经济增长的影响进行了抑制促进抑制的阶段。六个子结构及其影响的不平衡存在显着差异。此外,在东部,中心,西部和东北的四个地区,观察结果大不相同。综上所述,经济结构和经济转型的不平衡共存,经济增长放缓。基于中国的经验,本文提供了一些促进结构性优化和转型的证据。
摘要:基于P300的大脑 - 计算机界面(BCIS)中使用的奇数范式本质上构成了目标刺激和非目标刺激之间的数据不平衡问题。数据不平衡会导致过度解决问题,从而导致分类性能差。本研究的目的是通过通过抽样技术解决此数据不平衡问题来提高BCI性能。将采样技术应用于控制门锁的15个受试者的BCI数据,15个受试者是电灯,14名受试者是蓝牙扬声器。我们探索了两类采样技术:过采样和不足采样。过采样技术,包括随机过度采样,合成少数族裔过采样技术(SMOTE),边界效果,支持矢量机(SVM)SMOTE和自适应合成抽样,用于增加目标刺激类别的样品数量。不足的采样技术,包括随机不足采样,邻里清洁规则,Tomek的链接和加权式采样袋,用于降低非目标刺激的班级大小。通过SVM分类器对过度或不足的数据进行了分类。总体而言,某些过采样技术改善了BCI性能,而不足采样技术通常会降低性能。尤其是,使用边界效果产生了所有三种电器的最高精度(87.27%)和信息传输率(8.82 bpm)。此外,边缘效果会提高性能,尤其是对于表现不佳的人。进一步的分析表明,边界效果通过在目标类别中产生更多的支持向量并扩大边缘来改善SVM。然而,边界效果与应用SVM加权正规化参数的方法之间的准确性没有差异。我们的结果表明,尽管过采样提高了基于P300的BCI的性能,但它不仅是过采样技术的效果,而且是解决数据不平衡问题的效果。
电解质疾病是最严重的一种,在某些情况下是威胁生命的医疗状况,世界广泛[1]。具体而言,已知血清钾(K +)水平的不平衡(K +)水平不平衡会诱导几种严重的疾病[2]。成年人的正常血清钾水平范围为3.5至5.2 mmol/L,并且该范围内的任何值都被认为是病理状况[1,2]。由于钾离子在肌肉生理学中的重要作用,高钾血症和低钾血症都会导致心律不齐,肌肉无力,抽筋甚至麻痹[3]。他们的发作通常是突然的,可能会引起心律不齐,因此应紧急诊断和治疗。电解质失衡很普遍,尤其是在接受细胞毒性药物的患者中[4]。尽管这些失衡