分析大型数据集以选择最佳特征是机器学习和数据挖掘中最重要的研究领域之一。此特征选择过程涉及降维,这对于提高模型的性能并降低其复杂性至关重要。最近,已经提出了几种类型的属性选择方法,这些方法使用不同的方法来获取属性的代表性子集。然而,已经提出了基于种群的进化算法,例如遗传算法 (GA),通过避免局部最优并改进选择过程本身来弥补这些缺点。本文对基于 GA 的特征选择技术的应用及其在不同领域的有效性进行了全面的回顾。本综述使用 PRISMA 方法进行;因此,对相关文献进行了系统的识别、筛选和分析。因此,我们的结果暗示该领域的混合 GA 方法(包括但不限于 GA-Wrapper 特征选择器和 HGA-神经网络)通过解决诸如探索不必要的搜索空间、准确性性能问题和复杂性等问题,已经大大提高了它们的潜力。本文的结论将讨论遗传算法在特征选择中的潜力以及提高其适用性和性能的未来研究方向。
金融危机强调了金融关系的一部分是全球宏观经济变异性和系统性风险的潜在来源。使用深度学习(DL)预测金融危机(dl),利用神经网络(NN)来确定指示未来金融危机的模式并分析复杂的财务数据。dl方法,例如经常性神经网络(RNN)或长期记忆(LSTM),这些方法可以处理大量过去的财务数据,例如地缘政治事件,经济指标和市场价格。这些模型的目的是确定可以通过从早期危机及其前体学习来导致经济衰退的精致联系和信号。该问题属于金融市场的复杂和动态性质,要求持续培训和修改方法,以在发展财务状况方面保持显着性。尽管DL显示了提高预测能力的潜力,但要接受金融市场的固有歧义以及建立模型以提高其准确性和可靠性的要求至关重要。本研究提出了一种基于水母搜索算法的特征选择,其中最佳深度学习算法(JSAFS-ODL)用于金融危机预测(FCP)。JSAFS-ODL技术的目标被归类为金融危机或非财务危机的存在。为此,JSAFS-ODL技术应用基于JSA的功能选择(JSA-FS)来选择最佳功能集。此外,RNN-GRU模型可用于FCP。为了增强RNN-GRU方法的检测结果,可以将黑猩猩优化算法(COA)用于与RNN-GRU模型相关的超参数的最佳调整。为了确保JSAFS-ODL程序的更好性能,涉及一系列测试。获得的值强调了JSAFS-ODL技术达到JSAFS-ODL技术的显着性能。
摘要 在机器学习中,较少的特征会降低模型的复杂性。因此,仔细评估每个输入特征对模型质量的影响是至关重要的预处理步骤。我们提出了一种基于二次无约束二进制优化 (QUBO) 问题的新型特征选择算法,该算法允许根据特征的重要性和冗余度选择指定数量的特征。与迭代或贪婪方法相比,我们的直接方法可以产生更高质量的解决方案。QUBO 问题特别有趣,因为它们可以在量子硬件上解决。为了评估我们提出的算法,我们使用经典计算机、量子门计算机和量子退火器进行了一系列数值实验。我们的评估将我们的方法与各种基准数据集上的一系列标准方法进行了比较。我们观察到了具有竞争力的表现。
摘要 — 特征选择在机器学习中非常重要,它可用于降低分类、排名和预测问题的维数。删除冗余和噪声特征可以提高训练模型的准确性和可扩展性。但是,特征选择是一项计算量大的任务,其解决方案空间会以组合方式增长。在这项工作中,我们特别考虑了二次特征选择问题,该问题可以用量子近似优化算法 (QAOA) 来解决,该算法已用于组合优化。首先,我们用 QUBO 公式表示特征选择问题,然后将其映射到 Ising 自旋哈密顿量。然后我们应用 QAOA 来找到该哈密顿量的基态,这对应于特征的最佳选择。在我们的实验中,我们考虑了七个不同的真实世界数据集,维数高达 21,并在量子模拟器和 7 量子比特 IBM (ibm–perth) 量子计算机上(对于小型数据集)运行 QAOA。我们使用选定的特征集来训练分类模型并评估其准确性。我们的分析表明,使用 QAOA 解决特征选择问题是可能的,并且目前可用的量子设备可以得到有效利用。未来的研究可以测试更广泛的分类模型,并通过探索性能更好的优化器来提高 QAOA 的有效性。索引术语 —QAOA、特征选择、QUBO、分类
摘要背景。本研究的目的是开发和评估一种用于早期诊断 2 型糖尿病的机器学习模型,以便在疾病早期阶段应用治疗。材料和方法。开发了一种提出的混合机器学习模型,并将其应用于 UCI 数据库的早期糖尿病风险预测数据集。将所提模型的预测成功率与其他机器学习模型进行了比较。采用 Pearson 相关性和 SelectKBest 特征选择方法来检查数据集输入参数与结果之间的关系。结果。在数据集中包含的 520 名患者中,320 名被诊断患有糖尿病,其中 328 名(63.08%)为男性。最常见的糖尿病诊断标准是肥胖(n=482,83.08%)。虽然用 Pearson 相关性检测到的最强特征是多尿,但用 SelectKBest 检测到的最强特征是多饮。通过 Pearson 的特征提取,最成功的机器学习方法是提出的混合方法,准确率为 97.28%。使用 SelectKBest 特征选择,同一模型能够以 95.16% 的准确率预测 2 型糖尿病。结论。早期发现 2 型糖尿病将使患者得到更及时、更有效的治疗。因此,使用所提出的模型可能有助于提高患者护理质量并降低由该疾病造成的死亡人数。
摘要:基于功能性近红外光谱的脑机接口 (fNIRS-based BCI) 越来越受到关注。然而,由于固有的血流动力学延迟,我们实际上只能获得大量的 fNIRS 数据。因此,在使用机器学习技术时,可能会遇到由于高维特征向量而导致的问题,例如分类准确率下降。在本研究中,我们采用了一种基于弹性网络的特征选择,这是嵌入式方法之一,并通过分析结果证明了其实用性。使用从 18 名参与者获得的 fNIRS 数据集对心算和空闲状态引起的大脑激活进行分类,我们在改变参数 α(套索权重与岭正则化)的同时进行特征选择后计算了分类准确率。对于 α = 0.001、0.005、0.01、0.05、0.1、0.2 和 0.5 的各个值,分类准确率的平均值分别为 80.0 ± 9.4%、79.3 ± 9.6%、79.0 ± 9.2%、79.7 ± 10.1%、77.6 ± 10.3%、79.2 ± 8.9% 和 80.0 ± 7.8%,与使用所有特征估计的分类准确率的平均值(80.1 ± 9.5%)在统计上没有差异。因此,对于所有考虑的参数 α 值,分类准确率没有差异。特别是对于 α = 0.5,即使使用总特征的 16.4% 的特征,我们也能实现统计上相同的分类准确率水平。由于基于弹性网络的特征选择可以轻松应用于其他情况,而无需复杂的初始化和参数微调,我们可以期待看到基于弹性的特征选择可以积极应用于 fNIRS 数据。
对于与运动想象 (MI) 相关的脑机接口 (BCI) 系统,由于特征数量巨大而样本数量很少,特征选择是脑电图 (EEG) 分类的重要步骤。这使得分类过程在计算上非常昂贵,并且限制了 BCI 系统的实时适用性。解决此问题的一个方法是引入特征选择步骤,以在分类之前减少特征数量。需要解决的问题是,通过减少特征数量,分类准确性会受到影响。许多研究提出使用遗传算法 (GA) 作为特征选择问题的解决方案,其中非支配排序遗传算法 II (NSGA-II) 是这方面使用最广泛的 GA 之一。有许多不同的配置适用于 GA,特别是个体表示、育种算子和目标函数的不同组合。本研究评估了表示、选择和交叉算子的不同组合,以了解不同组合在与 MI 相关的 EEG 分类的准确性和特征减少方面的表现。总共对 24 种 NSGA-II 组合进行了评估,结合了三种不同的目标函数,针对六个受试者。结果表明,育种算子对平均准确率和特征减少的影响很小。但是,具有分层和基于整数的表示的个体表示和目标函数在表示方面取得了最有希望的结果,而皮尔逊相关特征选择与 k-最近邻或特征减少相结合,在目标函数方面获得了最显著的结果。这些组合用五个分类器进行了评估,其中线性判别分析、支持向量机(线性核)和人工神经网络产生了最高且最一致的准确率。这些结果可以帮助未来的研究开发他们的 GA,并选择分类器,用于基于 EEG 的 MI 分类中的 BCI 系统的特征选择。
摘要:量子计算有望实现比经典计算更快的速度,这引发了人们对探索用于数据分析问题的新型量子算法的兴趣。特征选择是一种从数据集中选择最相关特征的技术,是数据分析中的关键步骤。通过文献中提出的几种量子特征选择技术,本研究展示了量子算法在增强特征选择和其他利用方差的任务方面的潜力。本研究提出了一种用于估计一组真实数据的方差的新型量子算法。重要的是,在状态准备之后,该算法的复杂度在宽度和深度上都表现出对数特性。量子算法通过设计混合量子特征选择 (HQFS) 算法应用于特征选择问题。这项工作展示了 HQFS 的实现,并在两个合成数据集和一个真实数据集上对其进行了评估。
描述伽马 - 正交匹配追踪(伽马型)是最近建议对OMP特征选择算法的修改,用于广泛的响应变量。包装提供了许多替代回归模型,例如线性,健壮,生存,多元等,包括K折叠的交叉验证。参考文献:Tsagris M.,Papadovasilakis Z.,Lakio-taki K.和Tsamardinos I.(2018)。``````''sub-sion数据的有效特征选择:要使用哪种算法?''Biorxiv。。Tsagris M.,Papadovasi Lakis Z.,Lakiotaki K.和Tsamardinos I.(2022)。``用于针对基因表达数据的功能分配的伽马型算法''。IEEE/ACM关于计算双学和生物信息学的交易19(2):1214---1224。。
多视图无监督的特征选择(MUFS)最近引起了相当大的关注,可以从原始的多视图数据中选择紧凑的代表性特征子集。尽管有希望的初步性能,但大多数以前的MUFS方法都无法探讨多视图数据的歧视能力。此外,他们通常使用光谱分析来维持几何结构,这将不可避免地增加参数选择的难度。为了解决这些问题,我们提出了一种新颖的MUFS方法,称为基于结构正规化的歧视性多视图无监督特征选择(SDFS)。具体来说,我们从不同视图中计算样本空间的相似性矩阵,并自动加权每个视图特定图表以学习共识相似性图,其中这两种类型的图形可以相互促进。此外,我们将学习的潜在表示为群集指标,并在没有引入其他参数的情况下采用图形正则化来维护数据的几何结构。此外,开发了具有理论收敛属性的简单而有效的迭代更新算法。在几个基准数据集上进行的广泛实验验证了该设计的模型是否优于几种最新的MUFS模型。©2023 Elsevier B.V.保留所有权利。