图 1 痴呆症分类方法。痴呆症分类方法分为设计、实施和评估三个阶段。在获得神经病理学和其他数据后,我们对特征-特征相关性进行了预处理和评估。我们使用特征排序通过过滤方法对所有神经病理学特征进行排序。然后根据其排名选择不同的特征子集对分类器进行基准测试。然后,我们比较了一直被错误分类的病例,并评估了与这些病例相关的大脑属性,以改进机器学习。
世界卫生组织表示,脑瘤是最严重的疾病之一,因为它影响着全世界大多数人,包括儿童。开发一种在早期阶段识别脑瘤的系统将有助于挽救许多人的生命。人们已经进行了大量探索来开发一种识别脑瘤的系统;然而,这个系统应该得到改进,提高其准确性。因此,特征选择方法有望改进该系统。机器学习 (ML) 中特征选择技术的主要目的是选择一组合适的特征。包装器方法用于过滤。这些方法分为四类:前向选择、后向消除、穷举特征选择和递归特征消除。近年来,脑瘤影响了越来越多的人。脑瘤影响大脑,有时会扩散到其他部位。此外,还有 55 个特征被集中关注,如图像粗糙度、一致性或能量,以及附近的同质性被移除,以显示方法之间的质量差异。目标是寻找使用特征选择技术构成大问题的特征的可能性,该问题使用 bruta 和遗传学来解决。基于随机森林的 Boruta 特征选择算法。在本文中,我们介绍了一种称为 GenBoruta 的混合特征选择技术。GenBoruta 是一种用于查找所有相关变量的混合特征选择算法。它迭代地消除可测量测试证明比随机探测不那么重要的特征。与前向选择、后向消除、Boruta 和遗传等现有技术相比,所提出的技术表现良好。
1.B.1. 使用遗传算法进行监督学习的有效特征选择(Hilda & Rajalaxmi,2015) 1.B.2. PHGA:用于二元分类特征选择的混合遗传算法(Khiabani & Sabbaghi,2017) 1.B.3. 使用改进的遗传算法和经验模态分解进行 ECG 信号处理的特征选择(Anderson,2015) 1.B.4. 用于支持向量机同时进行模型和特征选择的多目标遗传算法(Bouraoui、Jamoussi & BenAyed,2018) 1.B.5. 基于遗传算法的亲属关系验证特征选择(Alireza-zadeh、Fathi & Abdali-Mohammadi,2015) 1.B.6. 1.B.1. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.2. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.3. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.4. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.5. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.6. 基于遗传算法和粒子群优化混合的特征选择 (Ghamisi & Benediktsson, 2015) 1.B.7. 基于遗传算法的特征选择结合双重分类用于增生性糖尿病视网膜病变的自动检测 (Welikala, Fraz, Dehmeshki, Hoppe, Tah, Mann, Williamson, & Barman, 2015b) 1.B.8. 基于增强遗传算法的混合特征选择用于文本分类 (Ghareb, Bakar, & Hamdan, 2016) 1.B.9. DWFS:一种基于并行遗传算法的包装器特征选择工具 (Soufan, Kleftogiannis, Kalnis, & Bajic, 2015) 1.B.10.基于遗传算法的特征选择方法用于高效的文本聚类和文本分类 (Hong, Lee, & Han, 2015) 1.B.11. 具有积极突变的遗传算法用于 BCI 特征空间中的特征选择 (Rejer, 2015)
正确且确定的脑肿瘤 MRI 分类在当前临床诊断、决策以及管理治疗方案中具有重要作用。在临床实践中,检查由专家通过视觉进行,这是一个劳动密集型且容易出错的过程。因此,需要基于计算机的系统来客观地执行此过程。在传统的机器学习方法中,提取并分类用于描述脑肿瘤 MRI 的低级和高级手工特征以克服上述缺点。考虑到深度学习的最新进展,我们在本研究中提出了一种新颖的卷积神经网络 (CNN) 模型,该模型结合了超列技术、预训练的 AlexNet 和 VGG-16 网络、递归特征消除 (RFE) 和支持向量机 (SVM)。所提模型的一大优势是,借助超列技术,它可以保留从深度架构不同层级的层中提取的局部判别特征。此外,所提模型通过融合从网络的最后全连接层获得的深度特征,充分利用了 AlexNet 和 VGG-16 网络的泛化能力。此外,使用 RFE 增强了所提模型的判别能力,从而揭示了最有效的深度特征。结果,所提模型在未使用任何手工制作的特征引擎的情况下获得了 96.77% 的准确率。确保了脑肿瘤 MRI 分类的全自动一致且有效的诊断模型。因此,所提模型有助于实现更客观的临床评估,支持专家的决策过程,并降低误诊率。
预测药物-靶标相互作用 (DTI) 是药物发现领域的一个重要研究领域。这意味着识别化合物和蛋白质靶标之间的相互作用。探索这些相互作用的湿实验室实验既昂贵又耗时。相反,更注重相互作用预测计算方法的干实验室环境有助于限制这些实验的搜索空间,并在开发新药之前提供线索。本文提出了一种称为 SRX-DTI 的新型药物-靶标相互作用预测方法。首先,我们从蛋白质序列中提取各种描述符,并将药物编码为 FP2 分子指纹。为了处理类别不平衡问题,我们提出了 One-SVM-US 技术来处理不平衡数据。我们还开发了 FFS-RF 算法,一种前向特征选择算法,并将其与随机森林 (RF) 分类器相结合,以最大化预测性能。前向特征选择算法在预测能力提高的前提下,向一组选定特征中添加新特征。该特征选择算法删除不相关的特征以获得最佳最优特征。最后,将具有最佳特征的平衡数据集提供给 XGBoost 分类器以识别 DTI。实验结果表明,我们提出的方法 SRX-DTI 在预测 DTI 方面比其他现有方法具有更高的性能。数据集和源代码可在以下位置获得:https://github.com/Khojasteh-hb/SRX-DTI 。
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2021年3月25日。 https://doi.org/10.1101/2021.03.24.436722 doi:biorxiv preprint
大型语言模型(LLMS)的快速发展具有显着影响的各个领域,利用了它们出色的几次射击和零照片的学习能力。在这项工作中,我们旨在探索和理解以数据为中心的观点的基于LLMS的特征选择方法。我们首先将现有的特征选择方法(LLMS)分为两个组:数据驱动的特征选择,它需要样本的数值来进行统计推断和基于文本的特征选择,这些特征选择利用LLMS的先验知识来使用描述性上下文进行语义关联。我们使用各种尺寸的LLM(例如GPT-4,CHATGPT和LLAMA-2)进行分类和回归任务的实验。我们的发现强调了基于文本的效果选择方法的效果和鲁棒性,并使用现实世界中的医疗应用来展示其潜力。我们还讨论了采用LLM进行征服选择的挑战和未来机会,为这一新兴领域的进一步研究和探讨提供了见解。
摘要 – 自动化和灵活生产方式的出现导致了对稳健监控系统的需求。此类系统旨在通过将其作为表征工艺条件的关键变量(称为特征)的函数来估计生产工艺状态。因此,特征选择问题对于基于传感器的监控应用至关重要,即在给定一组原始特征的情况下,找到一个子集,以使监控系统的估计精度尽可能高。考虑到实际应用,由于可用数据集合的不完善,特征选择可能很棘手:根据数据采集条件和受监控工艺操作条件,它们可能是异构的、不完整的、不精确的、矛盾的或错误的。传统的特征选择技术缺乏处理来自不同集合的不确定数据的解决方案。数据融合提供了解决方案来一起处理这些数据集合,以实现一致的特征选择,即使在涉及不完善数据的困难情况下也是如此。在这项工作中,工业钻井系统中工具的状态监测将作为基础,展示如何在这种困难情况下使用数据融合技术进行特征选择。
用于分类决策任务的公平特征选择最近引起了研究人员的显着关注。然而,现有的公平特征选择算法无法完全解释特征和敏感属性之间的因果关系,从而有可能影响公平特征识别的准确性。为了解决此问题,我们提出了一种公平的因果特征选择算法,称为FAIRCFS。从特定上讲,FAIRCFS构建了一个局部因果图,该图形标识了类和敏感变量的Markov毯子,以阻止敏感信息的传输以选择公平的因果特征。对七个公共现实世界数据集进行了广泛的实验,验证了FaiRCFS与八种最先进的特征选择算法相比具有可比性的精度,同时呈现出更高的公平性。
脑机接口 (BCI) 是连接人脑和计算机或其他电子设备的通信和控制系统。然而,无关通道和与任务无关的误导性特征限制了分类性能。为了解决这些问题,我们提出了一种基于粒子群优化 (PSO) 的高效信号处理框架,用于通道和特征选择、通道选择和特征选择。改进的 Stockwell 变换用于特征提取,多级混合 PSO-贝叶斯线性判别分析用于优化和分类。这里使用 BCI 竞赛 III 数据集 I 来确认所提方案的优越性。与未优化方法(89%准确率)相比,基于PSO的方案在使用不到10.5%的原始特征时,最佳分类准确率达到99%,测试时间减少90%以上,Kappa值和F-score分别达到0.98和98.99%,信噪比更好,优于现有算法。结果表明,通道和特征选择方案可以加快收敛到全局最优的速度,减少训练时间。由于该框架可以显著提高分类性能,有效减少特征数量,大大缩短测试时间,可以为相关实时BCI应用系统研究提供参考。