摘要:功能选择(FS)代表了许多基于机器学习的预测前维护(PDM)应用程序的重要步骤,包括各种工业流程,组件和监视任务。所选功能不仅是学习模型的输入,而且还可以影响进一步的决策和分析,例如,PDM系统的传感器选择和可理解性。因此,在部署PDM系统之前,至关重要的是检查输入数据中所选特征的可重复性和鲁棒性。这对于具有较低样本比率比(SDR)的现实世界数据集特别重要。然而,据我们所知,在PDM的领域尚未考虑FS方法在数据变化下的稳定性。本文通过铣削中的工具状况监测来解决此问题,其中采用了基于支持向量机和随机森林的分类器。我们使用五倍的交叉验证来评估三种流行的基于滤波器的FS方法,即Fisher评分,最小冗余最大相关性(MRMR)和RERIEFF,以稳定性和宏F1表示。此外,对于每种方法,我们研究了同质FS集合对两个性能指标的影响。为了获得广泛的见解,我们使用了从我们的实验和NASA的存储库中获得的四个(2:2)的铣削数据集,它们在操作条件,传感器,SDR,类等方面有所不同。对于每个数据集,对两个单独的传感器及其融合进行了研究。(2)在大多数情况下,Fisher得分(单和/或合奏)优越。在结论中:(1)不同的FS方法可以产生可比的宏F1,但FS稳定性值大为不同。(3)MRMR的稳定性总体上是不同设置(例如传感器,子集基数)的最低,最大的稳定性,并且是从整体中最有益的一种。
D-WAVE 在线资源:探索高管和开发人员的资源。视频、白皮书等。https://www.dwavesys.com/learn/resource-library
摘要:近几十年来,脑机接口 (BCI) 已成为研究的前沿领域。特征选择对于降低数据集的维度、提高计算效率和增强 BCI 的性能至关重要。使用与活动相关的特征可以在所需任务中获得较高的分类率。本研究提出了一种基于包装器的元启发式特征选择框架,用于使用功能性近红外光谱 (fNIRS) 的 BCI 应用。在这里,从所有可用通道计算时间统计特征(即平均值、斜率、最大值、偏度和峰度)以形成训练向量。使用基于 k 最近邻的成本函数测试了七种元启发式优化算法的分类性能:粒子群优化、布谷鸟搜索优化、萤火虫算法、蝙蝠算法、花授粉优化、鲸鱼优化和灰狼优化 (GWO)。基于来自 29 名健康受试者的运动想象 (MI) 和心算 (MA) 任务的在线数据集,对所提出的方法进行了验证。结果表明,与从全套特征中获得的特征相比,利用从元启发式优化算法中选择的特征可以显著提高分类准确率。所有上述元启发式算法都提高了分类准确率并减小了特征向量大小。GWO 对 MA、MI 和四类(左手和右手 MI、MA 和基线)任务的平均分类率最高(p < 0.01),分别为 94.83 ± 5.5%、92.57 ± 6.9% 和 85.66 ± 7.3%。所提出的框架可能有助于在训练阶段为基于 fNIRS 的稳健 BCI 应用选择合适的特征。
摘要:网络攻击检测技术今天起着至关重要的作用,因为网络攻击一直对组织和个人造成巨大伤害和损失。功能选择是许多网络攻击系统的必要步骤,因为它可以降低培训成本,提高检测性能并使检测系统轻量级。已经提出了与网络攻击检测特征选择相关的许多技术,并且每种技术都有优点和缺点。确定应该选择哪种技术对于许多研究人员和系统开发人员来说是一个具有挑战性的问题,尽管在网络安全领域中有几篇有关特征选择技术的调查论文,但其中大多数人试图成为无所不包的问题,并且过于笼统,并且太普遍了,这使得读者很难掌握该方法的混合和全面图像。在本文中,我们第一次详细介绍了基于过滤器的特征选择技术。基于过滤器的技术是一种流行的特征选择技术,并且在研究和应用中广泛使用。除了对这种方法的一般描述外,我们还详细解释了搜索算法和相关性措施,这是基于滤波器的技术中常用的两个必要的技术元素。
启动子是重要的非编码DNA调控元件,与RNA聚合酶结合激活下游基因的表达。工业上人工精氨酸主要由谷氨酸棒杆菌合成,特定启动子区域的复制可增加精氨酸的产量,因此需要对谷氨酸棒杆菌中的启动子进行准确定位。在湿实验中,启动子的识别依赖于sigma因子和DNA剪接技术,这是一项费力的工作。为了快速方便地识别谷氨酸棒杆菌中的启动子,我们发展了一种基于新型特征表示和特征选择的方法来完成这项任务,通过多种理化性质的统计参数描述DNA序列,结合方差分析和层次聚类过滤冗余特征,其预测准确率高达91.6%,灵敏度91.9%可以有效识别启动子,特异性91.2%可以准确识别非启动子。此外,我们的模型可以在400个独立样本中正确识别181个启动子和174个非启动子,证明了所开发的预测模型具有良好的稳健性。
心脏病是一种常见疾病,可导致死亡,难以手动检测。更有效的分类模型依靠机器学习方法来实现更高的分类精度,吸引了研究人员的注意力设计有效的预测模型。此外,它在医学心脏病学的实际应用中起着重要作用,目的是早期发现心脏病。在本文中,根据提出的自适应特征选择技术,使用四种机器学习方法提出了有效而准确的心脏病检测系统:支持向量机(SVM),逻辑回归(LR),决策树(DT)和随机森林(RF)。使用两种特征选择方法来设计提出的技术,相互信息(MI)和递归功能消除(RFE),以确定提高分类模型性能并降低模型实现时间复杂性的最佳选定特征数量。所提出的技术是在UCI机器学习存储库的两个标准数据库上实施的:克利夫兰心脏病和心脏statlog cleveland。使用交叉验证方法选择并保存为预测模型。结果表明,每个数据都根据分类器模型选择了不同数量的功能。对于第一个心脏病数据集,与其他分类器模型相比,最佳心脏病检测系统支持矢量机器 - 毫无用量信息(SVM-MI)的最高分类精度约为96.755。虽然第二个数据集的随机森林 - 杂种信息(RF-MI)模型的准确度为97.4%。与该领域的最新研究相比,该技术在准确性,F1分数,准确性和度量检索方面产生了最高的预测性能。
摘要 在机器学习中,较少的特征会降低模型的复杂性。因此,仔细评估每个输入特征对模型质量的影响是至关重要的预处理步骤。我们提出了一种基于二次无约束二进制优化 (QUBO) 问题的新型特征选择算法,该算法允许根据特征的重要性和冗余度选择指定数量的特征。与迭代或贪婪方法相比,我们的直接方法可以产生更高质量的解决方案。QUBO 问题特别有趣,因为它们可以在量子硬件上解决。为了评估我们提出的算法,我们使用经典计算机、量子门计算机和量子退火器进行了一系列数值实验。我们的评估将我们的方法与各种基准数据集上的一系列标准方法进行了比较。我们观察到了具有竞争力的表现。
预测药物-靶标相互作用 (DTI) 是药物发现领域的一个重要研究领域。这意味着识别化合物和蛋白质靶标之间的相互作用。探索这些相互作用的湿实验室实验既昂贵又耗时。相反,更注重相互作用预测计算方法的干实验室环境有助于限制这些实验的搜索空间,并在开发新药之前提供线索。本文提出了一种称为 SRX-DTI 的新型药物-靶标相互作用预测方法。首先,我们从蛋白质序列中提取各种描述符,并将药物编码为 FP2 分子指纹。为了处理类别不平衡问题,我们提出了 One-SVM-US 技术来处理不平衡数据。我们还开发了 FFS-RF 算法,一种前向特征选择算法,并将其与随机森林 (RF) 分类器相结合,以最大化预测性能。前向特征选择算法在预测能力提高的前提下,向一组选定特征中添加新特征。该特征选择算法删除不相关的特征以获得最佳最优特征。最后,将具有最佳特征的平衡数据集提供给 XGBoost 分类器以识别 DTI。实验结果表明,我们提出的方法 SRX-DTI 在预测 DTI 方面比其他现有方法具有更高的性能。数据集和源代码可在以下位置获得:https://github.com/Khojasteh-hb/SRX-DTI 。
摘要 — 特征选择在机器学习中非常重要,它可用于降低分类、排名和预测问题的维数。删除冗余和噪声特征可以提高训练模型的准确性和可扩展性。但是,特征选择是一项计算量大的任务,其解决方案空间会以组合方式增长。在这项工作中,我们特别考虑了二次特征选择问题,该问题可以用量子近似优化算法 (QAOA) 来解决,该算法已用于组合优化。首先,我们用 QUBO 公式表示特征选择问题,然后将其映射到 Ising 自旋哈密顿量。然后我们应用 QAOA 来找到该哈密顿量的基态,这对应于特征的最佳选择。在我们的实验中,我们考虑了七个不同的真实世界数据集,维数高达 21,并在量子模拟器和 7 量子比特 IBM (ibm–perth) 量子计算机上(对于小型数据集)运行 QAOA。我们使用选定的特征集来训练分类模型并评估其准确性。我们的分析表明,使用 QAOA 解决特征选择问题是可能的,并且目前可用的量子设备可以得到有效利用。未来的研究可以测试更广泛的分类模型,并通过探索性能更好的优化器来提高 QAOA 的有效性。索引术语 —QAOA、特征选择、QUBO、分类
MICHELE GROSSI 1、NOELLE IBRAHIM 2、VOICA RADESCU 3、ROBERT LOREDO 4、KIRSTEN VOIGT 5、CONSTANTIN VON ALTROCK 6 和 ANDREAS RUDNIK 7。1 欧洲核子研究组织 (CERN),瑞士日内瓦 1211(电子邮件:michele.grossi@cern.ch)2 IBM Quantum,IBM 3600 Steeles Ave East Markham,ON L3R 9Z7,CA(电子邮件:noel.ibrahim@ibm.com)3 IBM Quantum,IBM Deutschland Research & Development GmbH,Schönaicher Str. 220, 71032 Böblingen, 德国(电子邮件:voica.radescu@ibm.com) 4 IBM Quantum, IBM Corp, 1 Alhambra Plaza Suite #1415 Coral Gables, FL 33134(电子邮件:loredo@us.ibm.com) 5 IRIS Analytics GmbH, Klostergut Besselich, 56182 Urbar, 德国(电子邮件: kirsten.voigt@iris.de) 6 IRIS Analytics GmbH,Klostergut Besselich,56182 Urbar,德国(电子邮件:constantin.von.altrock@iris.de) 7 IRIS Analytics GmbH,Klostergut Besselich,56182 Urbar,德国(电子邮件:andreas.rudnik@iris.de)