量子计算已成为一个新兴领域,可能彻底改变信息处理和计算能力的格局,尽管物理上构建量子硬件已被证明是困难的,而且当前嘈杂中型量子 (NISQ) 时代的量子计算机容易出错且其包含的量子比特数量有限。量子机器学习是量子算法研究中的一个子领域,它对 NISQ 时代具有潜力,近年来其活动日益增多,研究人员将传统机器学习的方法应用于量子计算算法,并探索两者之间的相互作用。这篇硕士论文研究了量子计算机的特征选择和自动编码算法。我们对现有技术的回顾使我们专注于解决三个子问题:A) 量子退火器上的嵌入式特征选择,B) 短深度量子自动编码器电路,以及 C) 量子分类器电路的嵌入式压缩特征表示。对于问题 A,我们通过将岭回归转换为量子退火器固有的二次无约束二元优化 (QUBO) 问题形式并在模拟后端对其进行求解来演示一个工作示例。对于问题 B,我们开发了一种新型量子卷积自动编码器架构,并成功运行模拟实验来研究其性能。对于问题 C,我们根据现有技术的理论考虑选择了一种分类器量子电路设计,并与相同分类任务的经典基准方法并行进行实验研究,然后展示一种将压缩特征表示嵌入到该量子电路中的方法。
sof umer洞穴是一个未开发的极端环境,可容纳新型微生物和潜在的遗传资源。来自洞穴的微生物组已被遗传适应以产生各种生物活性代谢产物,使它们能够生存并耐受苛刻的结合。然而,尚未探索Sof umer Cave微生物中与生物合成相关的基因簇标志。因此,使用高通量shot弹枪测序来探索sof umer Cave的微生物组中与生物合成相关的基因簇(BGC)。Geneall DNA土壤迷你试剂盒用于从均质样品中提取高分子量DNA,并使用Novaseq PE150对纯化的DNA进行测序。根据微-RN数据库,乌默洞穴中最常见的微生物属是原细菌,静脉细菌,verrucomicrobobiota和蓝细菌。对与生物合成相关的基因簇进行了注释并分类,并使用抗石和NAPDOS1预先对BGC进行预令。确定了编码广泛的二级代谢物的BGC的460个推定区域,包括RIPP(47.82%),萜烯(19.57%),NRPS(13.04%),杂种(2.18%)和其他新的注释(10.87%)com punds。此外,NAPDOS管道还从链霉菌素的链霉菌素(链霉菌素基因肌链霉菌素)中鉴定出钙依赖性的抗生素基因簇,来自链霉菌Chrysomallus的放线菌素基因簇和来自链霉菌链霉菌的博霉素基因簇。这些发现突出了Sof Umer Cave微生物组的未开发的生物合成潜力,以及其发现天然产物的潜力。
特征选择是高维统计和机器学习的重要主题,用于预测和理解潜在现象。它在计算机视觉,自然语言处理,生物信息学等中都有许多应用。但是,文献中的大多数特征选择方法已提出用于离线学习,现有的在线功能选择方法在真正的支持恢复中具有理论和实际限制。本文提出了两种新型的在线特征选择方法,该方法由随机梯度下降和硬阈值操作员提出。提出的方法可以同时选择相关特征,并基于所选变量构建线性回归或分类模型。为提出方法的一致性提供了理论上的理由。对模拟和实际稀疏数据集的数值实验表明,所提出的方法与文献的最新在线方法相比有利。关键字:变量选择,流数据,随机算法,退火过程,大数据学习
描述伽马 - 正交匹配追踪(伽马型)是最近建议对OMP特征选择算法的修改,用于广泛的响应变量。包装提供了许多替代回归模型,例如线性,健壮,生存,多元等,包括K折叠的交叉验证。参考文献:Tsagris M.,Papadovasilakis Z.,Lakio-taki K.和Tsamardinos I.(2018)。``````''sub-sion数据的有效特征选择:要使用哪种算法?''Biorxiv。。Tsagris M.,Papadovasi Lakis Z.,Lakiotaki K.和Tsamardinos I.(2022)。``用于针对基因表达数据的功能分配的伽马型算法''。IEEE/ACM关于计算双学和生物信息学的交易19(2):1214---1224。。
摘要:背景:创建模型来区分自我报告的心理工作量感知具有挑战性,需要机器学习来识别脑电图信号中的特征。脑电图频带比率量化了人类活动,但对心理工作量评估的研究有限。本研究评估了使用 theta-to-alpha 和 alpha-to-theta 脑电图频带比率特征来区分人类自我报告的心理工作量感知。方法:在本研究中,分析了 48 名参与者在休息和任务密集型活动时的脑电图数据。使用不同的脑电图通道簇和频带比率开发了多个心理工作量指标。使用 ANOVA 的 F 分数和 PowerSHAP 提取统计特征。同时,使用逻辑回归、梯度提升和随机森林等技术建立和测试模型。然后用 Shapley 加法解释来解释这些模型。结果:根据结果,使用 PowerSHAP 选择特征可以提高模型性能,在三个心理工作量指数中表现出超过 90% 的准确率。相比之下,用于模型构建的统计技术表明所有心理工作量指数的结果都较差。此外,使用 Shapley 值来评估特征对模型输出的贡献,可以注意到,ANOVA F 分数和 PowerSHAP 测量中重要性较低的特征在确定模型输出方面发挥了最重要的作用。结论:使用具有 Shapley 值的模型可以降低数据复杂性并改进对感知人类心理工作量的更好判别模型的训练。但是,由于选择过程中特征的重要性及其对模型输出的实际影响有所不同,因此结果有时可能不明确。
摘要 - 随着全球电子商务的快速增长,物流行业对自动化的需求正在增加。这项研究的重点是仓库中的自动采摘系统,利用深度学习和强化学习技术来提高选择效率和准确性,同时降低系统故障率。通过经验分析,我们证明了这些技术在改善机器人拾取性能和对复杂环境的适应性方面的有效性。结果表明,集成的机器学习模型极大地胜过传统方法,有效地应对峰订单处理的挑战,减少操作错误并提高整体物流效率。另外,通过分析环境因素,本研究进一步优化了系统设计,以确保在可变条件下的高效和稳定的操作。这项研究不仅
分析大型数据集以选择最佳特征是机器学习和数据挖掘中最重要的研究领域之一。此特征选择过程涉及降维,这对于提高模型的性能并降低其复杂性至关重要。最近,已经提出了几种类型的属性选择方法,这些方法使用不同的方法来获取属性的代表性子集。然而,已经提出了基于种群的进化算法,例如遗传算法 (GA),通过避免局部最优并改进选择过程本身来弥补这些缺点。本文对基于 GA 的特征选择技术的应用及其在不同领域的有效性进行了全面的回顾。本综述使用 PRISMA 方法进行;因此,对相关文献进行了系统的识别、筛选和分析。因此,我们的结果暗示该领域的混合 GA 方法(包括但不限于 GA-Wrapper 特征选择器和 HGA-神经网络)通过解决诸如探索不必要的搜索空间、准确性性能问题和复杂性等问题,已经大大提高了它们的潜力。本文的结论将讨论遗传算法在特征选择中的潜力以及提高其适用性和性能的未来研究方向。
量子在科学研究中一直备受关注,因为它违背了人们的普遍看法。最近发展起来的量子计算也开始受到广泛关注。量子计算机可以比传统计算机更快地解决非确定性多项式 (NP) 难题中的一些独特挑战。这项工作基于在共享任务 QCLEF2024 中实现任务 1 特征选择,其中 MQ2007 数据集包含 46 个特征。该任务使用模拟退火和量子退火执行。基于 ndcg@10(归一化折现累积增益)和退火时间分析了两种退火方法的性能。使用量子退火时,我们分别获得了 ndcg@10 和退火时间 0.3621 和 27222 毫秒的结果。使用模拟退火时,我们分别获得了 ndcg@10 和退火时间 0.4024 和 284106 毫秒的结果。
协同过滤技术[1,2]根据用户行为模式和物品特征预测潜在的用户-物品交互,广泛应用于推荐算法中,该领域的一些著名技术包括矩阵分解方法[3]、基于邻域的方法[4]、深度学习方法[5,6]、基于图的技术[7,8]、因式分解机[9]、混合方法[10]、贝叶斯方法[11]和大型语言模型(LLM)[12]。然而,协同过滤技术[1]严重依赖于数据的质量。例如,使用用户个人资料、物品特征、评论、图像和其他信息可以显著提高推荐算法的性能,但在某些情况下,也会降低其性能。因此,区分哪些信息对推荐有用至关重要,这有助于构建高效的系统并降低能耗[13、14、15、16]。量子计算机利用量子比特和叠加、纠缠、量子隧穿等量子效应,是从冗余数据中识别有用信息的有效工具[17]。它显著提高了搜索问题和大整数分解的处理速度[18]。因此,在本文中,我们旨在利用量子计算技术寻找对推荐有用的特征。我们的目标是通过识别和利用相关数据来提高推荐系统的效率和准确性,从而降低计算要求和能耗[18、19、20]。在 QuantumCLEF 2024 中,我们专注于任务 1B,其中为每个项目分别提供 150 和 500 个特征[21、22]。我们将分析这些特征以提取与推荐系统最相关的特征。该任务要求参与者使用量子退火和模拟退火从给定数据中选择合适的特征,用于基于项目的 KNN 推荐算法(Item-KNN)。组织者提供了一个使用互信息进行特征选择的示例 [18]。但是,我们的初步实验表明,与使用所有特征而不进行任何选择相比,仅使用互信息进行特征选择对 Item-KNN 性能的改善有限。这是因为互信息仅反映两个变量之间的相互关系,与推荐算法的最终目标无关。因此,
物联网(物联网)在智能家居,自动驾驶汽车和环境监测等应用中变得越来越实用。但是,这种快速扩展导致了重大的网络安全威胁。检测这些威胁至关重要,尽管机器学习技术很有价值,但它们在高维数据方面挣扎。功能选择可以通过降低计算成本来帮助,同时保持模型概括。最有效的特征选择方法是至关重要的任务。本研究通过测试五种特征选择方法来解决此差距:随机森林(RF),递归特征消除(RFE),逻辑回归(LR),XGBoost回归(XGBoost)和信息增益(IG)使用CIC-IOT 2023数据集。与五个机器学习模型一起使用时,它会评估这些方法:Decision Tree(DT),Random Forest(RF),K-Nearest邻居(K-NN),梯度提升(GB)和多层式感知器(MLP),使用精度,精度,精确,回忆,fl1-Score,以及三个数据列表。结果表明,RFE尤其是RF模型,具有30个功能的最高精度(99.57%)。RF是最稳定的,准确性从83%至99.56%。此外,5-Feature方案最适合在资源有限的IoT设备上实现ID,RFE与K-NN模型配对是最佳组合。