摘要 — 在本文中,我们提出了一种机器学习过程,用于将大规模社交物联网 (SIoT) 设备聚类为几组具有强关系的相关设备。为此,我们根据物联网设备的历史数据集及其社交关系生成无向加权图。使用这些图的邻接矩阵和物联网设备的特征,我们使用图神经网络 (GNN) 嵌入图的节点,以获得物联网设备的数值向量表示。向量表示不仅反映了设备的特性,还反映了它与同类设备的关系。然后将获得的节点嵌入输入到传统的无监督学习算法中,以相应地确定聚类。我们使用两种众所周知的聚类算法展示获得的物联网组,特别是 K 均值和基于密度的聚类发现算法 (DBSCAN)。最后,我们将所提出的基于 GNN 的聚类方法在覆盖率和模块性方面的性能与仅应用于从不同关系创建的图的确定性 Louvain 社区检测算法的性能进行比较。结果表明,该框架在聚类大型物联网系统方面取得了有希望的初步成果。索引术语 — 物联网 (IoT)、聚类、深度学习、图神经网络。
机器学习简介。必需图书馆和工具(Scipy,Numpy,Pandas,Graphviz,Seaborn,Matplotlib软件包)。学习类型 - 受监督和无监督的学习。问题类型 - 回归,分类和聚类;机器学习的应用。讨论关键概念,例如成本函数,优化 - 梯度下降算法。采样,决策界限,模型不合适和过度拟合以及偏见变化权衡,成本敏感模型,电感偏见。贝叶斯学习:概率的基础,贝叶斯规则,生成与判别模型,贝叶斯规则 - 参数估计,最大似然。监督学习:解决回归问题 - 线性回归,正则化 - 脊和拉索。解决分类问题 - 逻辑回归,SVM,决策树。合奏 - 决策森林,包装和增强。无监督的学习:聚类-DBSCAN和桦木。异常检测 - 密度估计。加强学习简介。通过主成分分析缩小维度,内核主成分分析。人工神经网络简介。模型验证和选择:准确性,置信区间,混淆矩阵,精度,召回和其他指标,超参数调整,交叉验证,引导程序和ROC曲线,R平方等等。模型部署 - 在基于云的服务器中部署机器学习模型。
摘要本文研究了机器学习的应用(ML)方法在螺丝驾驶操作中的时间序列数据中的异常检测方法,这是制造业中关键的过程。利用一个新颖的开放访问现实世界数据集,我们探讨了几种无监督和监督的ML模型的功效。在无监督的模型中,DBSCAN以96.68%的精度和90.70%的宏F1得分表现出最佳性能。在监督模型中,随机森林分类器擅长于99.02%的精度,宏F1得分为98.36%。这些结果不仅强调了ML在提高制造质量和效率方面的潜力,而且还强调了其实际部署的挑战。这项研究鼓励对工业异常检测的ML技术进行进一步的研究和完善,从而有助于提高弹性,高效和可持续的制造过程。包括完整数据集以及基于Python的脚本的整个分析是通过专用存储库公开提供的。这种对开放科学的承诺旨在支持我们工作的实际应用和未来改编,以支持质量管理和制造业中的业务决策。关键字:异常检测,螺丝驾驶操作,收紧过程,监督学习,无监督学习。
地热能是可持续的能源,提供可靠和可再生能源解决方案。然而,由于传统方法的复杂性和不频,可以准确测量产生两相流体的井的地热井输出和焓。本文通过继续开发一种实时方法来衡量流量和地热井的焓的工作来解决这些问题,而不会中断操作。重点是使用基于高级规则的模型和机器学习技术准确估算地热流体的流量和焓。这项研究通过使用Landsvirkjun在2019年,2020年,2021年和2023年进行的Landsvirkjun的地热操作的测量来整合数据驱动的方法,以进行连续监测和早期检测井绩效变化。该研究采用了在Theistareykir和Bjarnarflag地热发电厂的专业差压力孔板表设置,提供了对模型至关重要的详细测量。最有效的模型使用噪声降低噪声的应用(DBSCAN),用于降低噪声,递归功能消除与交叉验证(RFECV)进行精确特征选择以及具有五个关键特征的随机森林回归(RFR),实现均方根误差(RMSE)为0.011。这种方法可以显着提高地热发电测量的效率和准确性,从而为实时监控和操作优化提供见解。
摘要:SLAM是一种至关重要的技术,用于实现无人车辆的自主导航和定位。传统的视觉同时本地化和映射算法建立在静态场景的假设上,从而忽略了动态目标在现实世界环境中的影响。来自动态目标的干扰可以显着降低系统的定位精度,甚至导致跟踪故障。为了解决这些问题,我们提出了一个名为S-Slam的动态视觉大满贯系统,该系统基于“同样和语义信息提取”。最初,引入了词汇描述符来描述定向的快速特征点,从而提高了特征点匹配的精度和速度。随后,fasternet替换了Yolov8的骨干网络以加快语义信息提取。通过使用DBSCAN聚类对象检测的结果,获得了更精致的语义掩码。最后,通过利用语义面膜和表现约束,可以辨别和消除动态特征点,从而仅利用仅利用静态特征点进行姿势估计,并构建了不包括动态目标的密集3D地图。在TUM RGB-D数据集和现实世界情景上进行了实验评估,并证明了拟议算法在滤除场景中的动态目标方面的有效性。与Orb-Slam3相比,TUM RGB-D数据集的本地化准确性提高了95.53%。针对经典动态大满贯系统的比较分析进一步证实了通过lam的定位准确性,地图可读性和鲁棒性的提高。
摘要 - 平衡空中交通需求和空域储能是领空管理中的关键挑战。此任务需要空中交通管制员之间的情境意识,需要使用可解释的流量预测和视觉工具来促进知名度良好的决策过程。本文提出了拟议的机器学习框架 - 旨在通过动态空域部门(DAS)平衡空域需求和容量的工作。das是一个概念,涉及扇区配置的动态变化,以响应交通需求的波动。所提出的框架包括四个关键组件:(i)需求和容量预测,利用时间融合变压器(TFT) - 一个高性能的多疗法预测模型,可为温度动态提供可解释的洞察力,启用交通需求和空域行业能力的预测,并具有4个小时的空间预测,并在4小时内和6小时的后方窗口外观。 (ii)使用基于密度的使用噪声(DBSCAN)算法的应用程序的空间聚类来有效地学习交通模式并识别主要的流量流; (iii)DAS,通过采用基于图的分区方法来优化空域行业的容量,以分裂扇形,而预测需求超过容量; (iv)视觉界面,提供一个交互式平台,该平台为需求和容量预测提供了扇区分裂边界和关键影响者,从而为空中交通管制员提供了良好信息的及时DAS。为了验证拟议的空调框架,2019年12月,来自新加坡飞行信息区(FIR)的四个选定部门的空中交通数据用于培训和评估。实验结果证明了该模型的高精度,交通需求预测的平均绝对误差为0.0234,空域部门容量预测为0.0291。此外,R平方值表示高预测性能,流量需求平均为0.9133,空域行业容量为0.9605。
摘要。铁路上的障碍物检测是一个至关重要的操作安全问题,是一项复杂的任务,涵盖了许多挑战。当机器学习(ML)算法通常用于类似的应用中,例如自动驾驶驾驶[1] [2],但由于可用数据的稀缺(尤其是图像),铁路领域面临着重大障碍,因此使常规ML方法不当。应对这一挑战,本研究提出并评估了一个使用LiDAR(光检测和范围)数据进行铁路障碍物检测的框架。该框架旨在解决图像数据稀缺性所带来的局限性,同时增强铁路环境中的操作安全性。开发的方法结合了能够在高达500米处检测障碍物的远距离激光雷达,以及火车的GPS(全球定位系统)坐标,以准确地确定其相对于检测到的障碍物的位置。使用数据融合方法处理LiDAR数据,其中有关轨道地形的预先存在的知识与聚类算法相结合,特别是DBSCAN(基于密度的基于密度的空间聚类,具有噪声的应用程序),以识别和分类在预定范围的距离处。在移动机车的范围内,特别是CP 2600-2620系列的测试,沿着Contumil-Leix基线的指定部分进行。 这些测试有助于验证实际操作条件下该方法的有效性和可行性。测试,沿着Contumil-Leix基线的指定部分进行。这些测试有助于验证实际操作条件下该方法的有效性和可行性。总体而言,LiDAR数据的利用与高级算法相结合,提出了增强铁路操作中障碍物检测能力的有前途的途径。通过克服与数据稀缺性相关的挑战,该框架有可能显着提高铁路网络内的运营安全性和效率。有必要进行进一步的研究和测试,以验证框架在各种铁路环境和运营条件下的性能。
[dbscan] Ester等。:“一种基于密度的算法,用于在具有噪声的大空间数据库中发现簇”。:KDD,1996年。[DGCNN] Wang等。:“用于在点云上学习的动态图CNN”。in :( tog),2019年。[Kabsch] W. Kabsch:“解决两组向量的最佳旋转解决方案”。in:晶体物理学,衍射,理论和一般晶体学,1976年。[Hregnet] Lu等。:“ Hregnet:用于大规模室外激光点云注册的分层网络”。in:(iccv),2021。[Randla-net] Hu等。:“ randla-net:大规模点云的有效语义分割”。in:(cvpr),2020。[Stereokitti] Menze等。:“自动驾驶汽车的对象场景流”。in:(cvpr),2015年。[Lidarkitti] Geiger等。:“我们准备好进行自动驾驶了吗?Kitti Vision基准套件”。in:(cvpr),2012年。[Semkitti] Behley等。:“ Semantickitti:用于LIDAR序列的语义场景的数据集”。in:(ICCV),2019年。[FT3DS] Mayer等。:“一个大型数据集来训练卷积网络以差异,光流和场景流量估计”。in:(cvpr),2016年。[pointpwc-net] Wu等。:“ PointPWC-NET:(自我监督场景流估计)点云上的成本量”。在:(ECCV),2020年。[FlowStep3d] Kittenplon等。:“ FlowStep3d:自我监督场景流估计的模型展开”。in:(cvpr),2021。[RMS-FLOWNET] Battrawy等。:“ RMS-FLOWNET:大规模点云的高效且稳健的多尺度场景流程估计”。in:(icra),2022。[WM3D] Wang等。:“对于3D场景流网络重要的东西”。in:(ECCV),2022。[Bi-Pointflownet] W. Cheng和J. Hwan Ko:“基于点云的场景流估计的双向学习”。in:(ECCV),2022。[Chodosh等人]Chodosh等。:“重新评估激光雷达场景以进行自动驾驶”。in:arxiv,2023。[WSLR] Gojcic等人。:“严格3D场景流的弱监督学习”。in:(cvpr),2021。[ERC] Dong等。 :“利用震子场景流量估计的刚性约束”。 in:(cvpr),2022。[ERC] Dong等。:“利用震子场景流量估计的刚性约束”。in:(cvpr),2022。
聚类分析起源于分类学,是人类掌握的一门古老技能。过去,人们依据经验和专业知识对商品进行分类。随着现代社会的发展,人们对分类的要求越来越高[1,2],仅依据经验和专业知识的分类已逐渐被淘汰,现在计算机技术被用于聚类分析,使用算法解决庞大而复杂的聚类任务[3,4]。因此,聚类算法已被提出并应用于各种场合[5,6]。此外,我们生活的海量数据世界也使得聚类过程不可或缺。许多研究领域都面临着海量数据的问题[7,8]。如果没有聚类或数据降维等预处理,很难进行后续分析[9–11]。例如在机器学习领域,几乎所有重要算法的原始入口都是大量的大规模数据,如果不进行聚类或降维,这些数据很难得到利用[12–14]。在量子通信领域,量子通信设备仅供应给少数几家大公司,量子通信中的很多方可能都是经典的,聚类算法可以帮助通信方更便捷地处理传输的信息[15–17]。在数据降维方面,我们熟悉的主成分分析算法(PCA)[18]、多维缩放(MDS)、线性判别(LDA)、局部线性嵌入(LLE)等[19–22]。但降维算法不可避免地会降低数据的属性值,如果操作不当,数据就会失去准确性,结果就会出现偏差,而使用聚类算法可以避免此类问题。目前,聚类算法可以按以下方式划分。基于分区的聚类算法包括 K 均值 [23]、K 中值 [24] 和核 K 均值算法 [25]。基于层次的聚类算法包括 BIRCH、CURE 和 CHAMELEON 算法 [26]。基于密度的聚类算法包括 DBSCAN、均值漂移 (MS) [27] 和密度峰值聚类算法 (DPC) [28]。每种算法都具有不同的分类能力。
课程描述 理学硕士 - 数据科学 CISC7201 数据科学编程简介 本课程涵盖自然语言处理 (NLP) 中的基础和高级主题,涉及将计算模型应用于文本数据。在本课程中,将研究自然语言处理中的核心任务,包括最小编辑距离、语言建模、Nävie Bayes、最大熵、文本分类、序列标记、POS 标记、语法分析和计算词汇语义。将探索现代 NLP 应用,例如信息检索和统计机器翻译。学生将学习如何制定和调查相关主题的研究问题。先决条件:无 CISC7204 数据科学与数据可视化 本课程旨在使学生了解数据可视化在数据科学和大数据分析中的重要性,并培养使用数据可视化工具呈现定量数据的知识和技能。本课程强调数据科学的实践方面,重点是使用 R 或 Python 编程语言来处理数据、生成可视化效果并解释这些可视化效果。学生将学习数据清理、数据重塑、基本制表、聚合和可视化表示的实践,以增加对复杂数据和模型的理解。先决条件:无 CISC7203 数据库和数据挖掘技术本课程旨在让学生学习数据库和数据挖掘概念和技术,用于不同领域的大数据分析和开发。本课程专注于解决大数据问题的数据库和数据挖掘的实际问题。内容包括数据库和数据仓库中的数据建模、SQL、数据库的 Python 编程、数据挖掘应用的 Python 编程和 R 编程。学生将学习数据库建模、查询和编程的技能,以及数据挖掘的编程技术。先决条件:无 CISC7202 机器学习工具 本课程介绍机器学习 (ML) 基础知识、方法和算法,并使用现代软件工具(例如 Scikit-learn 和 PyTorch)进行大量实践。在第一次关于机器学习的入门讲座之后,该课程涵盖了 ML 的四个关键主题:1)回归技术,包括线性回归、岭和套索回归、最近邻和核回归;2)分类技术,包括逻辑回归决策树、提升和装袋、SVM 和朴素贝叶斯;3)聚类技术,包括 k 均值、层次聚类、DBScan 和混合模型;4)深度学习技术,包括神经网络基础、卷积神经网络和生成神经网络。 先决条件:数据科学编程专业化 A 简介:人工智能应用 CISC7013 人工智能原理 传统人工智能原理概述:问题解决和逻辑代理。 现代人工智能原理概述:机器学习、决策树、神经网络、支持向量机和深度学习简介。 先决条件:无