特征选择需要从给定数据集中创建特征子集,以在原始数据集和选定特征集之间建立高度互信息 (MI) 共享 [ 1 , 2 ]。形式上,给定一组特征 F = { f 1 , f 2 , · · · , fm },其中 fi ∈ R d ,设 fi K 为 fi 在 K 中的维度所跨越的子空间上的投影,设 FK = { fi K } 为一组独立的 fi 。特征选择问题定义为从 F 中选择 K ⊂{ 1 , · · · , p },使得 K 保留最多信息。虽然特征选择是经典计算中一个研究得很深入的课题 [ 3 – 6 ],但在量子算法开发的背景下,特征选择仍然是一个相对较新的领域。这项任务被认为是 NP 难题 [ 7 ],在没有关于数据集结构的先验信息的情况下,量子算法的加速上限是二次的。此前,针对特征选择问题,人们提出了容错和效用规模量子算法 [8],但成功率参差不齐 [9-15]。其中,容错量子特征选择算法分别表现出多对数时间复杂度和二次加速比。多对数时间复杂度是由于问题中隐藏着某种代数结构,而二次加速比是当手头的 NP 完全问题的结构未知时量子算法的一般 Grover 加速比 [16]。其他量子方法是实现变分方法的效用规模量子算法。尽管分析此类算法很困难,但可以合理地假设,除非进一步利用问题结构,否则此类算法的量子加速比的上限就是 Grover 加速比。表示特征选择问题的一种常用方法是二次无约束优化问题 (QUBO),可以使用经典和量子计算框架进行处理。在量子计算机上,我们既可以使用 Grover 型容错算法,也可以使用 VQE [ 17 ] 或 QAOA 型 [ 18 ] 效用规模算法来求解该问题。另一方面,当量子算法能够利用已知结构时,加速比可以更显著,比如当简化为尖峰张量分解时,加速比可以达到四次方 [ 19 ],而当与计算 Betti 数相关时,加速比甚至可以达到指数级 [ 20 , 21 ]。这促使人们探究是否存在一类具有最小结构的问题,即用户对特征拥有稍多的信息,而量子算法可能会带来一些加速。这项工作旨在解决黑盒特征选择问题 (B2FS) 的这个问题,在某些假设下,将其表述为碰撞问题 [ 22 ]。利用 Brassard-Høyer-Tapp 算法(BHT 算法)[ 23 ],一种已知的碰撞问题解决方案,我们提供了对已经高效的经典概率算法进行多项式加速的证明。据我们所知,这是已知的第一个针对最小结构化特征选择问题的量子加速。
金融危机强调了金融关系的一部分是全球宏观经济变异性和系统性风险的潜在来源。使用深度学习(DL)预测金融危机(dl),利用神经网络(NN)来确定指示未来金融危机的模式并分析复杂的财务数据。dl方法,例如经常性神经网络(RNN)或长期记忆(LSTM),这些方法可以处理大量过去的财务数据,例如地缘政治事件,经济指标和市场价格。这些模型的目的是确定可以通过从早期危机及其前体学习来导致经济衰退的精致联系和信号。该问题属于金融市场的复杂和动态性质,要求持续培训和修改方法,以在发展财务状况方面保持显着性。尽管DL显示了提高预测能力的潜力,但要接受金融市场的固有歧义以及建立模型以提高其准确性和可靠性的要求至关重要。本研究提出了一种基于水母搜索算法的特征选择,其中最佳深度学习算法(JSAFS-ODL)用于金融危机预测(FCP)。JSAFS-ODL技术的目标被归类为金融危机或非财务危机的存在。为此,JSAFS-ODL技术应用基于JSA的功能选择(JSA-FS)来选择最佳功能集。此外,RNN-GRU模型可用于FCP。为了增强RNN-GRU方法的检测结果,可以将黑猩猩优化算法(COA)用于与RNN-GRU模型相关的超参数的最佳调整。为了确保JSAFS-ODL程序的更好性能,涉及一系列测试。获得的值强调了JSAFS-ODL技术达到JSAFS-ODL技术的显着性能。
摘要:本文提出了一种针对不平衡数据的稳健加权评分 (ROWSU),用于在存在类别不平衡问题的高维基因表达二分类问题中选择最具判别性的特征。该方法解决了基因表达数据集中类别分布高度倾斜这一最具挑战性的问题之一,该问题会对分类算法的性能产生不利影响。首先,通过从少数类观测值中合成数据点来平衡训练数据集。其次,使用贪婪搜索方法选择最小基因子集。第三,引入一种新的加权稳健评分,其中权重由支持向量计算,以获得一组优化的基因。将基于该方法得分最高的基因与通过贪婪搜索方法选择的最小基因子集相结合,形成最终的基因集。即使在类别分布倾斜的情况下,新方法也能确保选择最具判别性的基因,从而提高分类器的性能。在6个基因表达数据集上评估了所提出的ROWSU方法的性能。以分类准确率和灵敏度作为性能指标,将所提出的ROWSU算法与其他几种最先进的方法进行比较。为了更好地理解结果,还绘制了箱线图和稳定性图。结果表明,所提出的方法优于现有的基于k近邻(kNN)和随机森林(RF)分类器分类性能的特征选择程序。
糖尿病预测是一个正在进行的研究主题,医学专家试图以更高的精度预测病情。糖尿病通常保持昏昏欲睡,并且有机会确定患者患有另一种疾病,例如对肾脏的伤害,眼睛的视网膜问题或心脏病问题,它会导致代谢问题和体内各种复杂性。在本评论中应用了各种全球学习程序,包括投票,支持和解雇。使用工程设计的少数族裔过采样程序(被摧毁)以及K跨层互批批准方法,用于实现夜晚的上课并批准发现。PIMA印度糖尿病(PID)数据集是从UCI机器学习(UCI ML)商店中积累的,并选择了此数据集。一种突出的工程技术用于计算生活方式因素的影响。已经开发了一种两相分类模型,以使用顺序最小优化(SMO)和SMOTE方法一起预测胰岛素抵抗。SMOTE技术用于在模型的第一阶段中预处理数据,而SMO类则在第二阶段使用。所有其他分类技术的表现都超过了决策树的错误率,准确性,特异性,精度,召回,F1措施和ROC曲线。使用组合的SMOTE和SMO策略进行了模型,该策略以0.1 ms的运行时获得了99.07%的校正。建议的系统的结果是提高分类器在早期发现疾病方面的表现。
EEG信号的时间,频率和空间信息对于运动图像解码至关重要(Zheng等,2022)。因此,已经广泛研究了基于时间频率空间特征的运动图像解码(Chen等,2023)。In the process of temporal- frequency-spatial feature extraction, the original EEG signals are first decomposed into multiple time-frequency units, then the common spatial pattern (CSP) algorithm is used to extract the spatial features on each time-frequency unit, and finally, the spatial features of multiple time-frequency units are cascaded into a feature vector ( Miao et al., 2021 ), which significantly increases脑电图的特征维度。特征尺寸的数量超过一百甚至几百,而特征冗余。此外,由于收集脑电图样本的困难和高成本,尤其是对于患者,样本量通常相对较小,通常只有几十个。因此,时间频率空间特征是高维小样本数据,它将为EEG分类模型带来一系列问题,例如过度拟合和模型解决方案的问题不确定(Chadebec等,2022)。
老年计算机辅助分类检查诊断算法、精神障碍诊断和统计手册(第三版修订版)、受访者死亡后对消息来源的访谈和死亡原因。如果受访者在死亡前不到六个月的最后一次访谈中未被确诊患有痴呆症,或者在最后一次访谈中未被确诊患有痴呆症,而回顾性访谈显示死亡时没有痴呆症,则将受访者归类为死亡时没有痴呆症。如果受访者最后一次访谈是在死亡前六个月以上,并且在访谈中没有痴呆症记录,也没有回顾性消息来源访谈(RINI),则使用贝叶斯分析估计痴呆症的概率 [5, 29]。对神经病理学特征进行排序
摘要:锂离子电池是交通运输行业电气化和可再生能源转型的关键技术。始终确定锂离子电池的状况对于优化其运行至关重要。由于这些电池承受的各种负载条件以及电化学系统的结构复杂,因此无法直接测量其状况,包括其充电状态。相反,使用电池模型来模拟其行为。数据驱动模型越来越受到关注,因为它们具有较高的准确性和较短的开发时间;然而,它们高度依赖于数据库。为了解决这个问题,本文分析了使用数据增强方法来改进人工神经网络的训练。使用不同数量的人工数据训练线性回归模型、多层感知器和卷积神经网络,以估计电池单元的充电状态。所有模型都在真实数据上进行测试,以检验模型在实际应用中的适用性。卷积神经网络的测试误差最低,平均绝对误差为 0.27%。结果凸显了数据驱动模型的潜力以及使用人工数据改进这些模型训练的潜力。
摘要:量子计算有望实现比经典计算更快的速度,这引发了人们对探索用于数据分析问题的新型量子算法的兴趣。特征选择是一种从数据集中选择最相关特征的技术,是数据分析中的关键步骤。通过文献中提出的几种量子特征选择技术,本研究展示了量子算法在增强特征选择和其他利用方差的任务方面的潜力。本研究提出了一种用于估计一组真实数据的方差的新型量子算法。重要的是,在状态准备之后,该算法的复杂度在宽度和深度上都表现出对数特性。量子算法通过设计混合量子特征选择 (HQFS) 算法应用于特征选择问题。这项工作展示了 HQFS 的实现,并在两个合成数据集和一个真实数据集上对其进行了评估。
糖尿病是一种威胁生命的疾病,应尽早诊断和治疗。在本文中,递归特征消除率(RFE)和遗传算法(GA)已被用于两种不同患者遗产的两个不同糖尿病数据集的特征选择(FS),并与K-Nearest邻居(KNN)和最佳的糖尿病预测相结合。在我们的论文中,与KNN相比,RF表现出更好的性能。准确度级别也很大程度上取决于所使用的数据集。伊拉克社会糖尿病(ISD)数据集的准确性明显高于使用相同的FS和分类方法的PIMA印度糖尿病(PID)数据集。通过将KNN与RFE或GA结合在FS中可以提高,而与RF结合使用时,RF与COMEN -COMEN -CONDING一起使用。GA在计算上的效率低于RFE,并且表现出较低的精度。
多视图无监督的特征选择(MUFS)最近引起了相当大的关注,可以从原始的多视图数据中选择紧凑的代表性特征子集。尽管有希望的初步性能,但大多数以前的MUFS方法都无法探讨多视图数据的歧视能力。此外,他们通常使用光谱分析来维持几何结构,这将不可避免地增加参数选择的难度。为了解决这些问题,我们提出了一种新颖的MUFS方法,称为基于结构正规化的歧视性多视图无监督特征选择(SDFS)。具体来说,我们从不同视图中计算样本空间的相似性矩阵,并自动加权每个视图特定图表以学习共识相似性图,其中这两种类型的图形可以相互促进。此外,我们将学习的潜在表示为群集指标,并在没有引入其他参数的情况下采用图形正则化来维护数据的几何结构。此外,开发了具有理论收敛属性的简单而有效的迭代更新算法。在几个基准数据集上进行的广泛实验验证了该设计的模型是否优于几种最新的MUFS模型。©2023 Elsevier B.V.保留所有权利。