物联网(物联网)在智能家居,自动驾驶汽车和环境监测等应用中变得越来越实用。但是,这种快速扩展导致了重大的网络安全威胁。检测这些威胁至关重要,尽管机器学习技术很有价值,但它们在高维数据方面挣扎。功能选择可以通过降低计算成本来帮助,同时保持模型概括。最有效的特征选择方法是至关重要的任务。本研究通过测试五种特征选择方法来解决此差距:随机森林(RF),递归特征消除(RFE),逻辑回归(LR),XGBoost回归(XGBoost)和信息增益(IG)使用CIC-IOT 2023数据集。与五个机器学习模型一起使用时,它会评估这些方法:Decision Tree(DT),Random Forest(RF),K-Nearest邻居(K-NN),梯度提升(GB)和多层式感知器(MLP),使用精度,精度,精确,回忆,fl1-Score,以及三个数据列表。结果表明,RFE尤其是RF模型,具有30个功能的最高精度(99.57%)。RF是最稳定的,准确性从83%至99.56%。此外,5-Feature方案最适合在资源有限的IoT设备上实现ID,RFE与K-NN模型配对是最佳组合。
摘要:近年来,研究的重点是生成机制来评估受试者在执行各种需要高度集中注意力的活动(例如驾驶车辆)时的认知工作量水平。这些机制已经实现了多种分析认知工作量的工具,而脑电图 (EEG) 信号由于其高精度而最常使用。然而,实现 EEG 信号的主要挑战之一是找到适合识别认知状态的信息。在这里,我们提出了一种基于机器学习技术的使用 EEG 信号信息进行模式识别的新特征选择模型,称为 GALoRIS。GALoRIS 结合遗传算法和逻辑回归来创建一个新的适应度函数,该函数识别和选择有助于识别高和低认知工作量的关键 EEG 特征,并构建一个能够优化模型预测过程的新数据集。我们发现,GALoRIS 使用从多个 EEG 信号中提取的信息来识别与受试者驾驶车辆时的高和低认知工作负荷相关的数据,将原始数据集减少了 50% 以上,并最大限度地提高了模型的预测能力,实现了 90% 以上的准确率。
摘要 - 与阿尔茨海默氏病(AD)相关的社会和财务成本导致我们社会的显着负担。为了了解这种疾病的原因,公有私人伙伴关系,例如阿尔茨海默氏病神经诱因倡议(ADNI)将数据释放到科学界。这些数据被组织为各种方式(遗传,脑成像,认知评分,诊断等)进行分析。医学图像分析中使用的许多统计学习方法不能明确利用这种多模式数据结构。在这项工作中,我们提出了一种新颖的目标函数和优化算法,该算法旨在处理多模式信息以进行AD的预测和分析。我们的方法依赖于ℓ2,1-规范提供的稳健矩阵效果和行明稀疏性,以集成由ADNI提供的多模式数据。这些技术通过分类任务共同优化,以指导我们提出的任务平衡多模式特征选择方法中的特征选择。与某些广泛使用的机器学习算法进行比较时,我们的结果表现出改进的平衡精度,精度和Matthew的相关系数,以识别认知能力下降。在提高预测性能的方面,我们的方法能够识别临床研究界感兴趣的大脑和遗传生物标志物。我们预计我们的方法将引起更大的研究社区的兴趣,并在线发布了我们的方法代码。1我们的实验验证了现有的脑生物标志物和位于染色体11上的单核苷酸多态性,并在10号染色体上详细介绍了新型多态性,据作者所知,这些多态性尚未报道。
摘要:锂离子电池是交通运输行业电气化和可再生能源转型的关键技术。始终确定锂离子电池的状况对于优化其运行至关重要。由于这些电池承受的各种负载条件以及电化学系统的结构复杂,因此无法直接测量其状况,包括其充电状态。相反,使用电池模型来模拟其行为。数据驱动模型越来越受到关注,因为它们具有较高的准确性和较短的开发时间;然而,它们高度依赖于数据库。为了解决这个问题,本文分析了使用数据增强方法来改进人工神经网络的训练。使用不同数量的人工数据训练线性回归模型、多层感知器和卷积神经网络,以估计电池单元的充电状态。所有模型都在真实数据上进行测试,以检验模型在实际应用中的适用性。卷积神经网络的测试误差最低,平均绝对误差为 0.27%。结果凸显了数据驱动模型的潜力以及使用人工数据改进这些模型训练的潜力。
启动子是重要的非编码DNA调控元件,与RNA聚合酶结合激活下游基因的表达。工业上人工精氨酸主要由谷氨酸棒杆菌合成,特定启动子区域的复制可增加精氨酸的产量,因此需要对谷氨酸棒杆菌中的启动子进行准确定位。在湿实验中,启动子的识别依赖于sigma因子和DNA剪接技术,这是一项费力的工作。为了快速方便地识别谷氨酸棒杆菌中的启动子,我们发展了一种基于新型特征表示和特征选择的方法来完成这项任务,通过多种理化性质的统计参数描述DNA序列,结合方差分析和层次聚类过滤冗余特征,其预测准确率高达91.6%,灵敏度91.9%可以有效识别启动子,特异性91.2%可以准确识别非启动子。此外,我们的模型可以在400个独立样本中正确识别181个启动子和174个非启动子,证明了所开发的预测模型具有良好的稳健性。
针对入侵检测系统(IDS)检测速度慢、自适应性差、检测准确率不高等问题,提出一种基于自适应并行量子遗传算法的正则化互信息特征选择与多算子协同进化的检测算法(NMIFS MOP-AQGA)。为了对高维特征数据进行有效约简,采用NMIFS方法选择最佳特征组合,将最佳特征送入MOP-AQGA分类器进行学习训练,得到入侵检测器,将数据输入检测算法,最终产生准确的检测结果。在真实异常数据上的实验结果表明,NMIFS MOP-AQGA方法比现有检测方法具有更高的检测准确率、更低的误报率和更强的自适应性能,尤其对于小样本集更为有效。
在脑机接口 (BCI) 领域,选择高效且稳健的特征对于人工智能 (AI) 辅助临床诊断非常有吸引力。在本研究中,我们基于嵌入式特征选择模型,以逐层方式构建堆叠深度结构进行特征选择。其良好的性能由堆叠广义原理保证,即添加到原始特征中的随机投影可以帮助我们以堆叠方式连续打开原始特征空间中存在的流形结构。有了这样的好处,原始输入特征空间变得更加线性可分。我们使用波恩大学提供的癫痫脑电图数据来评估我们的模型。基于脑电图数据,我们构建了三个分类任务。在每个任务中,我们使用不同的特征选择模型来选择特征,然后使用两个分类器根据所选特征进行分类。我们的实验结果表明,我们的新结构选择的特征对分类器更有意义且更有帮助,因此比基准模型产生更好的性能。
脑机接口 (BCI) 系统解码脑电信号,建立人脑与外界直接交互的通道,无需肌肉或神经控制。P300 拼写器是最广泛使用的 BCI 应用之一,它向用户呈现字符选择,并通过从 EEG 中识别 P300 事件相关电位来执行字符识别。这种基于 P300 的 BCI 系统可以达到良好的准确度,但由于冗余和噪声信号,在日常生活中难以使用。应该考虑改进的空间。我们为基于 P300 的 BCI 系统提出了一种新的混合特征选择方法,以解决特征冗余问题,该方法结合了孟格曲率和线性判别分析。首先,将选定的策略分别应用于给定的数据集,以估计应用于每个特征的增益。然后,按降序对每个生成的值集进行排序,并根据预定义的标准判断其是否适合分类模型。然后评估两种方法的交集以确定最佳特征子集。使用三个公共数据集(即 BCI 竞赛 III 数据集 II、BNCI Horizon 数据集和 EPFL 数据集)对所提出的方法进行了评估。实验结果表明,与其他典型的特征选择和分类方法相比,我们提出的方法具有更好或相当的性能。此外,我们提出的方法可以在三个数据集上在所有 epoch 之后实现最佳分类准确率。总之,我们提出的方法为提高基于 P300 的 BCI 拼写器的性能提供了一种新方法。
摘要:在模式识别和机器学习领域,特征在预测中起着关键作用。特征的著名应用包括医学成像、图像分类等。随着医疗数据存储库和医疗服务提供中信息投资的指数级增长,医疗机构正在收集大量数据。这些数据存储库包含支持医疗诊断决策和提高患者护理质量所必需的详细信息。另一方面,这种增长也使得理解和利用数据用于各种目的变得困难。由于较大数据集中存在无关特征,成像数据的结果可能会出现偏差。特征选择提供了减少如此大数据集中组件数量的机会。通过选择技术,排除不重要的特征并选择产生普遍表征精度的组件子集。找到好属性的正确决定会产生精确的分组模型,从而提高学习速度和预测控制。本文回顾了医学成像的特征选择技术和属性选择措施。本综述旨在描述医学领域的特征选择技术及其优缺点,并指出其在图像数据和数据挖掘算法中的应用。本综述揭示了现有特征和属性选择技术对多源数据的缺点。此外,本综述还提出了特征选择对于正确分类医学感染的重要性。最后,提供了批判性分析和未来方向。
老年计算机辅助分类检查诊断算法、精神障碍诊断和统计手册(第三版修订版)、受访者死亡后对消息来源的访谈和死亡原因。如果受访者在死亡前不到六个月的最后一次访谈中未被确诊患有痴呆症,或者在最后一次访谈中未被确诊患有痴呆症,而回顾性访谈显示死亡时没有痴呆症,则将受访者归类为死亡时没有痴呆症。如果受访者最后一次访谈是在死亡前六个月以上,并且在访谈中没有痴呆症记录,也没有回顾性消息来源访谈(RINI),则使用贝叶斯分析估计痴呆症的概率 [5, 29]。对神经病理学特征进行排序