糖尿病(DM)是一种频繁的疾病,其中人体的糖水平在延长的时间长度上异常高。这是死亡率高的死亡原因,是全世界残疾年总年的第二大主要原因。其严重性来自其长期并发症,包括肾病,视网膜病和神经病,导致肾衰竭,视力和失明差和周围感觉丧失。这种情况会威胁生命,并影响患者的生活质量。因此,本文旨在确定DM诊断中最相关的功能,并确定最佳的分类器,这些分类器可以根据一组相关功能有效地诊断DM。为了实现这一目标,已经利用了四种不同的特征选择。此外,已经使用两个数据集和几个评估指标(例如精度,精确,召回,F1-估计和ROC领域)评估了属于六个学习策略的十二个不同的分类器。获得的结果表明,相关属性评估方法将是处理所考虑数据集的特征选择和排名的最佳选择,尤其是在考虑准确度度量时。此外,MulticlassClassifier将是处理糖尿病数据集的最佳分类器,尤其是在考虑真正的积极,精度和召回指标时。
摘要。基因表达分类是生物信息学中的一项关键但具有挑战性的任务,这主要是由于高度数据的高维度和过度拟合的风险。为了弥合这一差距,我们提出了Bolimes,这是一种新型特征选择算法,旨在通过系统地重新发现特征子集来增强基因表达分类。与仅依赖统计排名或分类特定选择的常规方法不同,我们将Boruta的稳健性与石灰的可解释性相结合,从而确保只保留最相关和最相关的基因。Bolimes第一位使用Boruta通过比较每个特征与其持有的对应物进行比较,从而释放了非信息性基因,从而保留了有价值的信息。然后,它使用石灰根据其对分类器的局部重要性来对剩余基因进行排名。最后,迭代分类评估通过选择最大化预测精度的基因数来确定最佳特征子集。通过将详尽的特征选择与可解释性驱动的重新结合结合,我们的解决方案有效地平衡了维数的降低与高分类性能,从而为高维基因表达分析提供了强大的解决方案。
脑电图(EEG)信号已被广泛用于诊断脑疾病,例如癫痫,帕金森氏病(PD),多重SKLEROZ(MS),并且已经提出了许多机器学习方法来开发使用EEG信号的自动疾病诊断方法。在这种方法中,提出了一种多级机器学习方法来诊断癫痫病。提出的多级EEG分类方法包括预处理,特征提取,特征串联,特征选择和分类阶段。为了创建水平,选择可调Q小波变换(TQWT),并通过在预处理中使用TQWT来计算25个频率系数子频段。在特征提取阶段,四核对称模式(QSP)作为特征提取器选择,并从RAW EEG信号和提取的25个子带中提取256个特征。在特征选择阶段,使用邻居组成分析(NCA)。在此阶段选择了128、256、512和1024最重要的特征。在分类阶段,K最近的邻居(KNN)分类被用作分类。使用BONN EEG数据集对七种情况进行了建议的方法。提出的方法在5个类案例中达到了98.4%的成功率。因此,我们提出的方法可以在较大的数据集中使用,以进行更多验证。
摘要 - 随着网络犯罪的发展越来越多,智能网络入侵检测系统(NIDS)的存在在网络基础架构中是必不可少的。此外,还有许多挑战面临基于人工智能的NID设计,例如网络流量中的无关功能,罕见的恶意流量示例以及机器学习模型选择和模型的Mypermeters finetuning的努力。这项研究提出了与这些挑战有关的有效NID,以准确检测恶意行为。首先,一种并行混合特征选择方法过滤了最重要的功能。第二,为了解决数据不平衡,我们集成了一项合并的随机下采样策略和合成少数民族过采样技术 - 编辑了最近的邻居技术,以确保对少数派攻击的平衡表示。最后,堆叠的集合分类器包括通过自动化机器学习方法选择的四种最佳基本模型。使用CICIDS2017数据集(用于入侵检测研究的综合基准),我们的方法达到了令人印象深刻的99.76%的令人印象深刻的检测率,从而有效地识别了多数族裔和少数类别。索引术语 - 开为单位,异常检测器,最佳特征选择,不平衡数据集,SMOTE,集合分类器。
运动想象 (MI) 脑电信号广泛应用于脑机接口 (BCI) 应用中,因为它们通过想象肢体运动让用户完全控制 [9]。想象和物理肢体运动会引起微节律同步和去同步,这可以通过使用脑电图技术在感觉运动皮层上进行探索 [10]。许多研究已经实现了特征选择和降维的具体技术,其中包括遗传算法 (GA) [11]、顺序前向特征选择 (SFFS) [12]、线性判别分析 (LDA) [13]、经验模态分解 (EMD) [14] 和 Fisher 判别分析 (FDA) [15]。因此,高效的线性分类器如支持向量机 (SVM) [16] 和 LDA [17] 被广泛用于特征分类。此外,贝叶斯分类器 [18]、隐马尔可夫模型分类器 (HMM) [19] 和 k-最近邻 (k-NN) 分类器 [20] 同样为 EEG 特征分类提供了有竞争力的结果。在这方面,Miao 等人 [21] 将右手食指解码应用于手指康复。Nijisha 等人 [22] 使用基于公共空间模式 (CSP) 的空间滤波器和单个卷积层对左手、右手、双手和脚 MI-EEG 信号进行分类。
算法选择是自动机器学习的关键过程,旨在确定用于解决特定问题或执行的最适合算法。主流算法选择技术在很大程度上依赖问题特征,而算法功能的作用仍然很大程度上探讨了。由于算法的内在复杂性,缺乏普遍提取算法信息的有效方法。本文第一次将大型语言模型(LLMS)引入大型语言模型(LLM)迈出了重大差距。通过理解代码文本,LLM不仅捕获了算法的结构和语义方面,而且还展示了上下文意识和库功能的理解。通过LLM提取的高维差异表示,在不介绍特征选择模块后与问题表示结合,并传递给相似性计算模块。选定的算法是由给定问题和不同算法之间的匹配度确定的。广泛的实验验证了所提出的模型的性能以及每个关键模块的效率。此外,我们在模型复杂性上提出了一个理论上的上限,展示了算法表示和特征选择模块的影响。这为我们方法的实际实施提供了宝贵的理论指导。
在此模块中,我们将深入研究集合学习的重要性及其在增强预测准确性中的作用。通过组合多个模型,我们可以有效地解决个别学习者的局限性,从而改善各种应用程序的性能,包括分类和回归任务。通过包装,增强和堆叠等技术,我们将探讨合奏方法如何利用各种算法来最大程度地减少偏见和差异,从而产生更强大和可靠的预测。特征选择和参数调整
摘要:骨质疏松症是一种由骨矿物质含量降低和骨微体系结构的变化所定义的疾病,对使用X射线图像进行准确分类构成了挑战。本文旨在从跟骨放射线照片中提取纹理特征,并选择最佳的纹理特征,这些特征可用于训练机器学习分类器模型以检测骨质疏松症。这项工作基于多分辨率分析和微结构分析,以表征来自跟骨X光片的小梁骨微体系结构。将图像转换为使用两级小波分解提取特征细节。结构纹理方法,例如局部二进制图案,分形维度和Gabor滤波器被应用于小波分解的图像。使用独立的样本t检验和特征选择方法选择了最具区别的纹理特征。机器学习模型是通过使用最佳纹理功能训练分类器来构建的,以从骨质疏松图像中对健康图像进行分类。使用包含跟骨放射线图像的公共挑战数据集评估了所提出方法的E ff。值得注意的是,最佳分类是通过使用正向特征选择选择的功能训练的K-Nearest邻居获得的,精度为78.24%。结果表明该方法作为低成本筛查骨质疏松症的可能替代工具的潜力。
最近,Android用户的数量已大大增加,这使Android成为攻击者发起恶意活动的目标。恶意软件或恶意代码通常嵌入到Android应用中,以访问用户的设备并检索个人数据。研究人员探索了各种方法来减轻Android恶意软件的传播。此外,Android恶意软件数据集具有巨大的尺寸,并具有数百个功能。选择适当的特征选择方法是产生可靠检测模型的挑战之一。本文提出了一种使用增益比选择和一个集成机器学习算法来检测Android恶意软件并将其分为五个类别的方法。通过增益比计算方法根据其重要性值降低的特征。然后,被认为必要的功能包含在结合许多模型的分类过程中。使用Cicmaldroid2020(加拿大网络安全研究所Android 2020)的实验数据集表明,所提出的方法可以改善检测性能。增益比的特征选择提高了几种机器学习分类算法的检测准确性,幼稚的贝叶斯的2.59%,最近的邻居和2.29%的支持向量机。因此,随机森林,额外树木和最近邻居的结合机器学习模型取得了最高的性能,精度为94.57%,精度分数为94.71%。
先前的研究尝试使用机器学习分类方法将人们可能记住的事件的单次试验神经反应与可能忘记的事件区分开来。成功的单次试验分类具有转化为临床领域的潜力,可以实时检测记忆和其他认知状态,从而提供实时干预(即脑机接口)。然而,大多数这些研究(以及一般的分类分析)并没有明确所选方法是否最适合对与记忆相关的大脑状态进行分类。为了解决这个问题,我们系统地比较了分类的每个步骤(即特征提取、特征选择、分类器选择)的不同方法,以研究哪些方法最适合解码情景记忆大脑状态——这是此类分析的首次。使用在执行情景上下文编码和检索任务期间收集的成人寿命样本 EEG 数据集,我们发现没有一种特定的特征类型(包括基于共同空间模式 (CSP) 的特征、均值、方差、相关性、基于 AR 模型的特征、熵、相位和相位同步)在区分不同记忆类别方面始终优于其他特征类型。然而,提取所有这些特征类型的效果始终优于仅提取一种特征。此外,与单独过滤或根本不进行特征选择相比,过滤和顺序前向选择的组合是选择有效特征的最佳方法。此外,尽管所有分类器