摘要:本文提出了一种针对不平衡数据的稳健加权评分 (ROWSU),用于在存在类别不平衡问题的高维基因表达二分类问题中选择最具判别性的特征。该方法解决了基因表达数据集中类别分布高度倾斜这一最具挑战性的问题之一,该问题会对分类算法的性能产生不利影响。首先,通过从少数类观测值中合成数据点来平衡训练数据集。其次,使用贪婪搜索方法选择最小基因子集。第三,引入一种新的加权稳健评分,其中权重由支持向量计算,以获得一组优化的基因。将基于该方法得分最高的基因与通过贪婪搜索方法选择的最小基因子集相结合,形成最终的基因集。即使在类别分布倾斜的情况下,新方法也能确保选择最具判别性的基因,从而提高分类器的性能。在6个基因表达数据集上评估了所提出的ROWSU方法的性能。以分类准确率和灵敏度作为性能指标,将所提出的ROWSU算法与其他几种最先进的方法进行比较。为了更好地理解结果,还绘制了箱线图和稳定性图。结果表明,所提出的方法优于现有的基于k近邻(kNN)和随机森林(RF)分类器分类性能的特征选择程序。
摘要:脑电信号被广泛应用于情绪识别,但目前基于脑电信号的情绪识别准确率较低,实时性受到限制。针对这些问题,本文提出了一种改进的特征选择算法来基于脑电信号识别受试者的情绪状态,并结合该特征选择方法设计了一种在线情绪识别脑机接口系统。具体而言,首先提取时域、频域、时频域不同维度的特征;然后采用改进的多阶段线性递减惯性权重(MLDW)粒子群优化(PSO)方法进行特征选择。MLDW算法可以很容易地优化惯性权重的递减过程;最后采用支持向量机分类器对情绪类型进行分类。我们从32名受试者采集的DEAP数据集中的脑电数据中提取了不同的特征,进行了两次离线实验,结果表明四类情绪识别的平均准确率达到了76.67%。与最新基准相比,我们提出的MLDW-PSO特征选择提高了基于脑电的情绪识别的准确率。为了进一步验证MLDW-PSO特征选择方法的有效性,我们开发了一个基于中文视频的在线二类情绪识别系统,对10名健康受试者取得了良好的效果,平均准确率达到了89.5%。证明了我们方法的有效性。
特征选择需要从给定数据集中创建特征子集,以在原始数据集和选定特征集之间建立高度互信息 (MI) 共享 [ 1 , 2 ]。形式上,给定一组特征 F = { f 1 , f 2 , · · · , fm },其中 fi ∈ R d ,设 fi K 为 fi 在 K 中的维度所跨越的子空间上的投影,设 FK = { fi K } 为一组独立的 fi 。特征选择问题定义为从 F 中选择 K ⊂{ 1 , · · · , p },使得 K 保留最多信息。虽然特征选择是经典计算中一个研究得很深入的课题 [ 3 – 6 ],但在量子算法开发的背景下,特征选择仍然是一个相对较新的领域。这项任务被认为是 NP 难题 [ 7 ],在没有关于数据集结构的先验信息的情况下,量子算法的加速上限是二次的。此前,针对特征选择问题,人们提出了容错和效用规模量子算法 [8],但成功率参差不齐 [9-15]。其中,容错量子特征选择算法分别表现出多对数时间复杂度和二次加速比。多对数时间复杂度是由于问题中隐藏着某种代数结构,而二次加速比是当手头的 NP 完全问题的结构未知时量子算法的一般 Grover 加速比 [16]。其他量子方法是实现变分方法的效用规模量子算法。尽管分析此类算法很困难,但可以合理地假设,除非进一步利用问题结构,否则此类算法的量子加速比的上限就是 Grover 加速比。表示特征选择问题的一种常用方法是二次无约束优化问题 (QUBO),可以使用经典和量子计算框架进行处理。在量子计算机上,我们既可以使用 Grover 型容错算法,也可以使用 VQE [ 17 ] 或 QAOA 型 [ 18 ] 效用规模算法来求解该问题。另一方面,当量子算法能够利用已知结构时,加速比可以更显著,比如当简化为尖峰张量分解时,加速比可以达到四次方 [ 19 ],而当与计算 Betti 数相关时,加速比甚至可以达到指数级 [ 20 , 21 ]。这促使人们探究是否存在一类具有最小结构的问题,即用户对特征拥有稍多的信息,而量子算法可能会带来一些加速。这项工作旨在解决黑盒特征选择问题 (B2FS) 的这个问题,在某些假设下,将其表述为碰撞问题 [ 22 ]。利用 Brassard-Høyer-Tapp 算法(BHT 算法)[ 23 ],一种已知的碰撞问题解决方案,我们提供了对已经高效的经典概率算法进行多项式加速的证明。据我们所知,这是已知的第一个针对最小结构化特征选择问题的量子加速。
摘要:网络攻击检测技术今天起着至关重要的作用,因为网络攻击一直对组织和个人造成巨大伤害和损失。功能选择是许多网络攻击系统的必要步骤,因为它可以降低培训成本,提高检测性能并使检测系统轻量级。已经提出了与网络攻击检测特征选择相关的许多技术,并且每种技术都有优点和缺点。确定应该选择哪种技术对于许多研究人员和系统开发人员来说是一个具有挑战性的问题,尽管在网络安全领域中有几篇有关特征选择技术的调查论文,但其中大多数人试图成为无所不包的问题,并且过于笼统,并且太普遍了,这使得读者很难掌握该方法的混合和全面图像。在本文中,我们第一次详细介绍了基于过滤器的特征选择技术。基于过滤器的技术是一种流行的特征选择技术,并且在研究和应用中广泛使用。除了对这种方法的一般描述外,我们还详细解释了搜索算法和相关性措施,这是基于滤波器的技术中常用的两个必要的技术元素。
本文介绍了一种基于闵可夫斯基数学相似性的新型聚类方法,以改进用于分类的EEG特征选择,并在机器学习的背景下实现高效的粒子群优化(PSO)。鉴于高维医学数据集的复杂性,特征选择在预防疾病和促进公共健康方面起着至关重要的作用。通过采用闵可夫斯基聚类,目标是将数据集记录分组为两个具有高特征一致性的聚类,从而通过应用 PSO 等优化技术来选择最优特征,从而提高准确性。此外,所提出的模型可以扩展到智能数据集,包括EEG和其他数据集。由于精确分类所需的特征较少,因此智能特征选择是机器学习的一个高级步骤。本文研究了影响波恩大学EEG数据集中特征选择的关键因素。将所提出的系统与各种优化和特征选择方法进行了比较,结果表明,在基于准确度测量分析和分类EEG信号方面具有卓越的性能。实验结果证实了所提出的模型作为脑电图数据分类的有用工具的有效性,准确率高达 100%。这项研究的成果有可能通过简化识别和诊断脑部疾病的过程,使相关专业的医学专家受益。从技术上讲,机器学习算法 RF、KNN、SVM、NB 和 DT 用于对选定的特征进行分类。
摘要:已经进行了大量研究来从各个方面提高基于运动想象的脑机接口 (BCI) 分类性能。然而,在客观和主观数据集上比较他们提出的特征选择框架性能的研究有限。因此,本研究旨在提供一种新颖的框架,该框架将不同频带的空间滤波器与双层特征选择相结合,并在已发布和自获取的数据集上对其进行评估。对脑电图 (EEG) 数据进行预处理并将其分解为多个频率子带,然后根据 Fisher 比率和最小冗余最大相关性 (mRmR) 算法提取、计算和排序其特征。通过线性判别分析 (LDA) 选择信息滤波器组进行最佳分类。研究结果首先表明,所提出的方法在准确性和 F1 分数方面可与其他传统方法相媲美。研究还发现,手与脚的分类比左手与右手的分类更具可辨性(差异为 4-10%)。最后,在应用于小规模数据时,滤波器组通用空间模式(FBCSP,无特征选择)算法的性能明显低于所提出的方法(p = 0.0029、p = 0.0015 和 p = 0.0008)。
摘要:定量结构-活性关系 (QSAR) 旨在将分子结构特性与相应的生物活性关联起来。机会相关性和多重共线性是生成 QSAR 模型时经常遇到的两个主要问题。特征选择可以通过删除冗余或不相关的分子描述符来显著提高 QSAR 的准确性和可解释性。人工蜂群算法 (ABC) 模仿蜜蜂群的觅食行为,最初是为解决连续优化问题而提出的。它已应用于分类的特征选择,但很少用于回归分析和预测。本文使用二元 ABC 算法来选择 QSAR 中的特征(分子描述符)。此外,我们提出了一种改进的基于 ABC 的 QSAR 特征选择算法,即 ABC-PLS-1。交叉和变异算子被引入到已聘用蜜蜂和旁观蜜蜂阶段来修改每个解决方案的几个维度,这不仅节省了将连续值转换为离散值的过程,而且还减少了计算资源。此外,提出了一种新的贪婪选择策略,即选择准确率更高、特征更少的特征子集,有助于算法快速收敛。使用三个QSAR数据集对所提算法进行了评估。实验结果表明,ABC-PLS-1在准确率、均方根误差和所选特征数量方面优于PSO-PLS、WS-PSO-PLS和BFDE-PLS。此外,我们还研究了在跟踪回归问题时是否实施侦察蜂阶段,并得出了一个有趣的结论:在处理低维和中维回归问题的特征选择时,侦察蜂阶段是多余的。
本文研究了心理任务分类——基于脑机接口 (BCI),因为这是 BCI 的主要研究领域,而且这些系统可以改善严重残疾的人的生活,因此备受关注。BCI 模型的性能主要取决于特征向量的大小,该向量通过多个通道获得。在心理任务分类的情况下,特征的训练样本可用性极低。通常,特征选择用于通过去除不相关和多余的特征来提高心理任务分类的比率。本文提出了一种选择相关和非冗余光谱特征进行心理任务分类的方法。这可以通过使用四种非常知名的多变量特征选择方法来实现,即 Bhattacharya 距离、散点矩阵比、线性回归和最小冗余与最大相关性。这项工作还涉及心理任务分类的多变量和单变量特征选择的比较分析。应用上述方法后,研究结果表明,学习模型在心理任务分类方面的性能得到了显著改善。此外,通过执行稳健的排序算法和弗里德曼统计测试来找到最佳组合并比较功率谱密度和特征选择方法的不同组合,证明了所提出方法的有效性。
脑电图是检测睡眠障碍的非常有效的工具。在文献调查中讨论了各种算法进步。信号采集,预处理,特征提取和分类是其实施的一般步骤。由于人工神经网络(ANN)非常适用于睡眠障碍的识别,因此无需明确的特征提取。ANN本质上能够理解数据中的基本模式。计算出的召回的值不过是在各自电极所做的读数的总体组合。随着数据的变化而变化。如今,通过选择最佳特征选择方法,该作品在优化电极数量方面正在进展。如今,通过选择最佳特征选择方法,该作品在优化电极数量方面正在进展。
Shofwatul Uyun,Lina Choridah。“基于乳腺癌挖掘的特征选择乳房X光片”,国际电气和计算机工程杂志 (IJECE),2018 年出版