使用深度学习(DL)的新机器学习方法(ML)超过时间系列模型,通常比传统的ML算法更准确。但是,这些相同的模型(DL)是其缺点,因为它花了大量时间来训练它们在其超偏见的复杂定制任务中。可以看出,使用包装技术(RF)和增强(GBM)的另一种强大的ML方法(即随机森林(随机森林-RF)和梯度增强机)的关注较少。它们的计算量较高,而不是时间串联模型,超出了超级保障者的自定义活动的复杂程度远不那么复杂。鉴于此发现,选择了其中两种 - 随机森林和LightGBM,因为它们代表了强大的方法,并且可以有效地捕获数据中的复杂非线性模式。从对这些技术的分析中,我们试图建立一种方法,以系统地获取一种能够协助分析师参与决策过程的工具,以了解投资,赚钱或等待和得出有关在巴西市场中潜在使用机器学习技术的结论,从而提出了推荐的推荐实践和/或/或/或/或/或/或/或/或/或/或/或/或/或/或/或/或/或/或/或/of。首先,进口的数据分区分为三组(培训,验证和测试),并且采用了两种数据分离方法:一种使用数据的时间方面和另一个随机除法。该过程遵循数据收集和存储步骤,价格序列的处理和归一化,串联属性的分析,从原始属性创建新属性,使用预测模型以及结果分析。值得注意的是,数据还使用描述为时间栏的方法的自定义标记。总而言之,考虑到所研究的问题,尽管随机分裂具有更有效的措施,这与使用时间分割有关。关于算法,LGBM证明了它的效果更好。
抽象的在线购物商人将进行一系列营销活动以增加客户,但是在许多情况下,大多数新客户不会重复购买,这不利于商人的长期利益。因此,对于商人而言,针对更有可能回购的用户很重要,因为这可以降低营销成本并提高投资回报率。基于在线购物网站提供的数据集,本文对数据进行采矿和探索性分析,利用特征工程方法以及使用LightGBM,Logistic,logistic,XGBoost进行机器学习建模的建模分析。同时,进行参数优化和模型评估验证,最后,比较分析以Light GBM作为最佳预测模型,将为在线购物商店的运营提供有效的营销决策。关键字:数据分析,数据建模,机器学习,在线购物,重复购买预测1。简介商人有时会在特定日期发布大规模促销或发行优惠券以吸引消费者。但是,吸引的许多买家都是一次消费者。从长远来看,这些促销活动可能对销售业绩的增长无济于事,因此为了解决这个问题,商人需要确定可以将哪种类型的消费者转换为重复买家。通过分析和定位这些潜在的忠实客户并进行精确的营销,商人可以大大降低促销成本并增加投资回报率(ROI)。众所周知,在线广告时,很难准确地针对客户,尤其是针对新消费者。随着大数据技术的发展和电子商务平台的持续增长,用户的兴趣和爱好等个人信息以及行为信息(例如日常购物)已经累积在主要的电子商务平台的数据库中,逐渐形成了大量数据。已经发现,通过挖掘有关在线购物行为的大数据,可以提前预测用户的重复购买行为,甚至可以专门预测每个用户都有重复购买意图的商人产品的产品。
摘要:增材制造 (AM) 工艺中的质量预测至关重要,特别是在航空航天、生物医学和汽车等高风险制造业。声学传感器已成为一种有价值的工具,可通过分析特征和提取独特特征来检测打印图案的变化。本研究重点关注熔融沉积成型 (FDM) 3D 打印样品立方体 (10 mm × 10 mm × 5 mm) 的声学数据流的收集、预处理和分析。以 10 秒为间隔提取不同层厚度的时域和频域特征。使用谐波-打击源分离 (HPSS) 方法对音频样本进行预处理,并使用 Librosa 模块对时间和频率特征进行分析。进行了特征重要性分析,并使用八种不同的分类器算法(K最近邻(KNN)、支持向量机(SVM)、高斯朴素贝叶斯(GNB)、决策树(DT)、逻辑回归(LR)、随机森林(RF)、极端梯度提升(XGB)和轻梯度提升机(LightGBM))实施机器学习(ML)预测,以基于标记数据集对打印质量进行分类。使用具有不同层厚度的三维打印样品(代表两种打印质量水平)生成音频样本。从这些音频样本中提取的频谱特征作为监督ML算法的输入变量,以预测打印质量。调查显示,频谱平坦度、频谱质心、功率谱密度和RMS能量的平均值是最关键的声学特征。使用包括准确度分数、F-1分数、召回率、精确度和ROC / AUC在内的预测指标来评估模型。极端梯度提升算法脱颖而出,成为最佳模型,预测准确率为 91.3%,准确率为 88.8%,召回率为 92.9%,F-1 得分为 90.8%,AUC 为 96.3%。这项研究为使用熔融沉积模型进行基于声学的 3D 打印部件质量预测和控制奠定了基础,并可扩展到其他增材制造技术。
摘要:在本文中,我们使用 Qiskit Python 环境中的两个量子分类器研究了量子机器学习在分类任务中的适用性:变分量子电路和量子核估计器 (QKE)。我们对这些分类器在六个广为人知且公开可用的基准数据集上使用超参数搜索时的性能进行了首次评估,并分析了它们在两个人工生成的测试分类数据集上的性能如何随样本数量而变化。由于量子机器学习基于酉变换,本文探讨了可能特别适合量子优势的数据结构和应用领域。在此,本文介绍了一种基于量子力学概念的新数据集,使用李代数的指数映射。该数据集将公开,并为量子霸权的实证评估做出了新的贡献。我们进一步比较了 VQC 和 QKE 在六个广泛适用的数据集上的性能,以将我们的结果情境化。我们的结果表明,VQC 和 QKE 的表现优于基本机器学习算法,例如高级线性回归模型(Ridge 和 Lasso)。它们无法与复杂的现代增强分类器(例如 XGBoost、LightGBM 或 CatBoost)的准确性和运行时性能相匹配。因此,我们得出结论,虽然量子机器学习算法在未来有可能超越经典机器学习方法,特别是当物理量子基础设施变得广泛可用时,但它们目前落后于经典方法。我们的调查还表明,与特别使用酉过程的量子方法相比,经典机器学习方法在基于组结构对数据集进行分类方面具有卓越的性能。此外,我们的研究结果强调了不同的量子模拟器、特征图和量子电路对所用量子估计器性能的重大影响。这一观察强调了研究人员需要详细解释他们对量子机器学习算法的超参数选择,因为这一方面目前在该领域的许多研究中被忽视了。为了促进该领域的进一步研究并确保我们研究的透明度,我们在链接的 GitHub 存储库中提供了完整的代码。
人类活动识别(HAR)在各种应用中起着至关重要的作用,包括医疗保健,健身跟踪,安全性和智能环境,通过基于传感器和视觉数据对人类行为进行自动分类。本文提交了对HAR利用机器学习,基于传感器的数据和融合方法的全面探索。har涉及通过分析来自加速度计和陀螺仪等传感器的数据来对人类活动进行分类。计算技术和传感器可用性的最新进展已推动了该领域的重大进展,从而使这些传感器集成到智能手机和其他设备中。第一项研究概述了HAR的基本方面,并回顾了现有文献,强调了机器学习应用在医疗保健,田径和个人使用中的重要性。在第二项研究中,重点转移到处理HAR系统的大规模,可变和嘈杂的传感器数据方面的挑战。该研究将机器学习算法应用于KU-HAR数据集,揭示了LightGBM分类器在关键性能指标(例如准确性,精度,回忆和F1得分)中的表现优于其他人。这项研究强调了为改进的HAR系统优化机器学习技术的持续相关性。这项研究突出了未来研究的潜力,以探索更先进的融合技术,以充分利用HAR的不同数据方式。第三项研究的重点是通过采用数据融合技术来克服HAR研究中的共同挑战,例如改变智能手机模型和传感器配置。实验是使用流行的机器学习分类器在KU-HAR和UCI HAR数据集上进行的,包括决策树,随机森林,梯度增强和XGBoost。Xgboost实现了96.83 \%的最高精度,并通过决策水平的融合方法证明了其在对基本人类活动进行分类方面的有效性,从而进一步改善了结果。第四个研究通过将可穿戴传感器数据与视觉数据相结合,深入研究了HAR的多模式融合技术。该研究研究了晚期融合方法在整合传感器和视觉方式方面的性能。传记素描生于沙特阿拉伯利雅得,国王沙特·本·阿卜杜勒齐兹卫生科学大学(KSAU-HS),沙特阿拉伯,2016年,沙特阿拉伯,沙特阿拉伯,
多肌术(PSG)在夜间收集生理参数,以分析患者的睡眠。此过程使用脑电图(EEG),电击图(EOG),肌电图(EMG),心电图,脉搏血氧仪,气流和呼吸努力。睡眠分期是从EEG,EOG和EMG电极确定的。额叶,中央和枕脑区域的电活动以及眼睛运动和下巴EMG用于确定睡眠阶段[26]。PSG睡眠评分是专家使用的一种常见方法,可监测人类睡眠的质量和数量以及诊断睡眠失误[17]。此过程涉及分析整个晚上的睡眠,分为30秒的时代,每个时期都归类为一组预定的睡眠阶段。最近的研究使用机器学习进行了自动睡眠评分。Silveira等人的研究。[29]使用随机森林(RF)用离散小波作为特征提取器进行睡眠评分。Hassan等人的方法。[11]根据单个EEG通道对睡眠阶段进行了分类,而[23]之类的研究根据单个EOG通道对它们进行了分类。此外,RF用于一系列与EEG相关的问题,例如早期癫痫发作检测[6],人类精神状态分类[7]等。[29]之类的方法仅使用EEG通道数据。,但通过[14]提供的进一步分析,在使用各种类型的渠道时,分类性能没有改善。[35]使用RF和LightGBM作为机器学习算法来对睡眠阶段进行分类。考虑到人类自然衰老过程中睡眠中发现的变化,我们旨在分析这些变化如何影响我们的分类模型[16,33,18],Zhou等人的文章。值得注意的是,他们将年龄作为分类任务中的功能。另一方面,[8,25]这样的论文分析了早期睡眠和晚期睡眠之间的差异,显示出很大的差异。在本文中,我们还试图分析这些变化如何影响训练有素的模型的性能。在这里,我们分析了一个睡眠评分模型,以评估年龄的效果以及早期(早睡,最初4个小时)和晚期(深夜,最后4个小时)睡眠的影响,对古典分类器在Epoch睡眠阶段的性能。为此,我们将小波用作特征提取器和RF作为分类器。结果,我们试图了解不同模型如何最适合每个问题的需求。
摘要背景:代谢功能障碍相关的脂肪变性肝病(MASLD)代表着没有建立治疗疗法的重要全球健康负担。早期检测和预防策略对于有效的MASLD管理至关重要。这项研究旨在开发和验证机器学习(ML)算法,以在地理上多样化的大规模人群中进行准确的MASLD筛查。方法:从伊朗农村法尔斯省(2014年3月)发起的前瞻性FASA队列研究的数据用于此目的。使用血液测试,问卷,肝超声检查和身体检查收集所需的数据。两步方法从100多个变量中确定了关键预测因素:(1)使用平均降低Gini的统计选择在随机森林中的GINI和(2)(2)将临床专业知识与已知MASLD风险因素保持一致。使用了固定验证方法(使用70/30列车/验证拆分),以及验证集上的5倍交叉验证。逻辑回归,天真的贝叶斯,支撑矢量机和光梯度增强机(LightGBM)算法的算法的模型构建具有相同的输入变量基于接收器操作特征曲线(AUC),敏感性,特异性,正面预测值(PPV),负预测值(NPV)和精确度和准确性。结果:该研究中总共包括6,180名成年人(52.7%),分为4816个非MASLD和1364例MASLD案例,平均年龄(±标准偏差[SD])分别为48.12(±9.61)和49.47(±9.15)年。伊朗大四。逻辑回归的表现优于其他ML算法,其准确度为0.88(95%置信区间[CI]:0.86-0.89),AUC的准确度为0.92(95%CI:0.90-0.93)。在100多个变量中,关键预测因子包括腰围,体重指数(BMI),臀部周长,腕圆周,丙氨酸氨基转移酶水平,胆固醇,葡萄糖,高密度脂蛋白和血压。结论:MAL在MASLD管理中的集成具有巨大的希望,尤其是在资源有限的农村环境中。此外,分配给每个预测因子的相对重要性,特别是腰围和BMI等杰出贡献者,为MASLD预防,诊断和治疗策略提供了宝贵的见解。关键字:逻辑回归,机器学习,非酒精性脂肪肝病,预测模型,农村地区引用了本文:Masaebi F,Azizmohammad Looha M,Mohammadzadeh M,Pahlevani V,Farjam M,Farjam M,Zayeri F等。使用实验室和身体成分指标预测代谢功能障碍相关的脂肪疾病疾病的机器学习应用。2024; 27(10):551-562。 doi:10.34172/aim.31269
机器学习在研究和行业中正在迅速发展,新方法不断出现。这种速度甚至使专家要对新移民保持艰巨和艰巨。为了使机器学习神秘,本文将探讨十种关键方法,包括解释,可视化和示例,以提供对核心概念的基本理解。我曾经依靠多变量的线性回归来预测特定建筑物中的能源使用(以kWh),通过结合建筑年龄,故事数量,平方英尺和插入电器等因素。由于我有多个输入,因此我采用了多变量方法,而不是简单的一对一线性回归。该概念保持不变,但根据变量数量将其应用于多维空间。下图说明了该模型与建筑物中实际能耗匹配的程度。想象一下可以访问建筑物的特征(年龄,平方英尺等),但缺乏有关其能源使用的信息。在这种情况下,我可以利用拟合线来估计该特定建筑物的能源消耗。另外,线性回归使您能够衡量每个促成最终能量预测因素的重要性。例如,一旦建立了一个公式,就可以确定哪些因素(年龄,大小或身高)对能耗的影响最大。分类是一个基本的概念,然后再继续采用更复杂的技术,例如决策树,随机森林,支持向量机和神经网。1。2。随着机器学习的进展(ML),您将遇到非线性分类器,从而实现更复杂的模式识别。聚类方法属于无监督的ML类别,重点是将具有相似特征的观测值分组而无需使用输出信息进行培训。而不是预定义的输出,聚集算法根据数据相似性定义了自己的输出。一种流行的聚类方法是K-均值,其中“ K”代表用户为群集创建的数字。该过程工作如下:数据中的随机选择“ K”中心;将每个点分配到其最接近的中心;重新计算新的集群中心;并迭代直至达到收敛或最大迭代限制。例如,在建筑物的数据集中,应用K = 2的K均值,可以根据空调效率等因素将建筑物分为高效(绿色)和低效率(红色)组。聚类具有自己的一系列有用算法,例如DBSCAN和平均移位群集。降低性降低是另一种基本技术,用于管理具有许多与分析不相关的列或功能的数据集。主组件分析(PCA)是一种广泛使用的维度缩减方法,它通过找到最大化数据线性变化的新向量来降低特征空间,从而使其成为将大型数据集减少到可管理大小的有效工具。在具有较强线性相关性的数据集上应用维度降低技术时,可以通过选择适当的方法来最大程度地减少信息丢失。例如,T-Stochastic邻居嵌入(T-SNE)是一种流行的非线性方法,可用于数据可视化以及在机器学习任务中的特征空间降低和聚类。手写数字的MNIST数据库是分析高维数据的主要示例。此数据集包含数千个图像,每个图像都标记为0到9。使用T-SNE将这些复杂数据点投影到两个维度上,研究人员可以在原始784维空间中可视化复杂的模式。类似于通过选择最佳组件并将它们组装在一起以获得最佳性能,类似于构建自定义自行车,Ensemble方法结合了多个预测模型,以实现比单个模型本身所能实现的更高质量预测。诸如随机森林算法之类的技术(汇总在不同数据子集训练的决策树上)就是组合模型如何平衡差异和偏见的示例。在Kaggle比赛中表现最好的人经常利用集合方法,其中包括随机森林,Xgboost和LightGBM在内的流行算法。与线性模型(例如回归和逻辑回归)相比,神经网络旨在通过添加参数层来捕获非线性模式。这种灵活性允许在更复杂的神经网络体系结构中构建更简单的模型,例如线性和逻辑回归。深度学习,其特征是具有多个隐藏层的神经网络,包括广泛的架构,使得与其连续演变保持同步是一项挑战。深度学习在研究和行业社区中变得越来越普遍,每天引起新的方法论。为了实现最佳性能,深度学习技术需要大量数据和计算能力,因为它们的自我调整性质和大型体系结构。使用GPU对于从业者来说是必不可少的,因为它使该方法的许多参数能够在巨大的体系结构中进行优化。深度学习已在视觉,文本,音频和视频等各个领域中取得了非凡的成功。TensorFlow和Pytorch是该领域最常见的软件包之一。考虑一位从事零售工作的数据科学家,其任务是将衣服的图像分类为牛仔裤,货物,休闲或衣服裤。可以使用转移学习对训练衬衫进行分类的初始模型。这涉及重复一部分预训练的神经网络,并为新任务进行微调。转移学习的主要好处是,训练神经网络所需的数据较少,鉴于所需的大量计算资源以及获取足够标记的数据的困难,这一点尤为重要。在行动中的强化学习:最大化奖励和推动AI边界RL可以在设定的环境中最大化累积奖励,从而使其非常适合具有有限数据的复杂问题。在我们的示例中,一只鼠标会导航迷宫,从反复试验中学习并获得奶酪奖励。rl在游戏中具有完美的信息,例如国际象棋和GO,反馈快速有效。但是,必须确认RL的局限性。像Dota 2这样的游戏对传统的机器学习方法具有挑战性,但RL表现出了成功。OpenAI五支球队在2019年击败了世界冠军E-Sport球队,同时还开发了可以重新定位的机器人手。世界上绝大多数数据都是人类语言,计算机很难完全理解。NLP技术通过过滤错误并创建数值表示来准备用于机器学习的文本。一种常用方法是术语频率矩阵(TFM),其中每个单词频率均可在文档中计算和比较。此方法已被广泛使用,NLTK是用于处理文本的流行软件包。尽管取得了这些进步,但在将RL与自然语言理解相结合,确保AI可以真正理解人类文本并解锁其巨大潜力时仍将取得重大进展。TF-IDF通常优于机器学习任务的其他技术。TFM和TFIDF是仅考虑单词频率和权重的数值文本文档表示。单词嵌入,通过捕获文档中的单词上下文,将此步骤进一步。这可以用单词进行算术操作,从而使我们可以表示单词相似性。Word2Vec是一种基于神经网络的方法,它将大型语料库中的单词映射到数值向量。这些向量可用于各种任务,例如查找同义词或表示文本文档。单词嵌入还通过计算其向量表示之间的余弦相似性来启用单词之间的相似性计算。例如,如果我们有“国王”的向量,我们可以通过使用其他单词向量进行算术操作来计算“女人”的向量:vector('queen'')= vector('king'') + vector('king') + vector('woman'') - vector('男人')。我们使用机器学习方法来计算这些嵌入,这些方法通常是应用更复杂的机器学习算法的预步骤。要预测Twitter用户是否会根据其推文和其他用户的购买历史来购买房屋,我们可以将Word2Vec与Logistic回归相结合。可以通过FastText获得157种语言的预训练词向量,使我们可以跳过自己的培训。本文涵盖了十种基本的机器学习方法,为进一步研究更高级算法提供了一个可靠的起点。但是,还有很多值得覆盖的地方,包括质量指标,交叉验证和避免模型过度拟合。此博客中的所有可视化均使用Watson Studio Desktop创建。机器学习是一个AI分支,算法在其中识别数据中的模式,在没有明确编程的情况下进行预测。这些算法是通过试验,错误和反馈进行了优化的,类似于人类的学习过程。机器学习及其算法可以分为四种主要类型:监督学习,无监督学习,半监督学习和增强学习。这是每种类型及其应用程序的细分。**监督学习**:此方法涉及使用人类指导的标记数据集的培训机器。无监督学习的两种主要类型是群集和降低性。它需要大量的人类干预才能在分类,回归或预测等任务中实现准确的预测。标记的数据分为特征(输入)和标签(输出),教机教学机构要识别哪些元素以及如何从原始数据中识别它们。监督学习的示例包括:***分类**:用于分类数据,算法,诸如K-Neartem邻居,天真的贝叶斯分类器,支持向量机,决策树,随机森林模型排序和隐藏数据。***回归**:经常用于预测趋势,线性回归,逻辑回归,山脊回归和LASSO回归等算法,以确定结果与自变量之间的关系,以做出准确的预测。**无监督的学习**:在这种方法中,机器在没有人类指导的情况下处理原始的,未标记的数据,减少工作量。无监督的学习算法在大型数据集中发现隐藏的模式或异常,这些模式可能未被人类发现,使其适用于聚类和降低任务。通过分析数据并分组相似的信息,无监督的学习可以在数据点之间建立关系。无监督学习的示例包括自动化客户细分,计算机视觉和违规检测。基于相似性的聚类算法组原始数据,为数据提供结构。这通常用于营销以获取见解或检测欺诈。一些流行的聚类算法包括层次结构和K-均值聚类。此迭代过程随着时间的推移增强了模型的准确性。维度降低在保留重要属性的同时减少数据集中的功能数量,使其可用于减少处理时间,存储空间,复杂性和过度拟合。特征选择和特征提取是使用两种主要方法,其中包括PCA,NMF,LDA和GDA在内的流行算法。半监督学习通过将少量标记的数据与较大的原始数据结合在一起,在受监督和无监督学习之间取得了平衡。与无监督学习相比,这种方法在识别模式和做出预测方面具有优势。半监督学习通常依赖于针对两种数据类型培训的修改后的无监督和监督算法。半监督学习的示例包括欺诈检测,语音识别和文本文档分类。半监督学习:通过伪标记和传播自训练算法增强模型的准确性:这种方法利用了称为伪标记的现有的,有监督的分类器模型来微调数据集中的较小的标记数据集。伪标记器然后在未标记的部分上生成预测,然后将其添加回数据集中,并具有准确的标签。标签传播算法:在标签传播中,未标记的观测值通过图神经网络中的动态分配机制接收其分配的标签。数据集通常以一个已经包含标签的子集开始,并标识数据点之间的连接以传播这些标签。概率:IB(增加爆发)-30%此方法可以快速识别社区,发现异常行为或加速营销活动。强化学习:强化学习使嵌入在AI驱动软件计划中的智能代理能力独立响应其环境,并做出旨在实现预期结果的决策。这些药物是通过反复试验的自我训练,获得了理想的行为和对不良行为的惩罚,最终通过积极的加强来达到最佳水平。强化学习算法的示例包括Q学习和深度强化学习,这些学习通常依赖大量的数据和高级计算功能。基于神经网络和深度学习模型领域内的基于变压器的体系结构,Chatgpt利用机器学习能力来掌握和制作模仿人类之间的对话互动。
