单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展证明了与该领域的召开CNN相比,具有显着的优势。但是,了解这些模型如何优先考虑2D图像中不同区域的优先级以及这些区域如何影响深度估计性能。探索变压器和CNN之间的差异,我们采用了稀疏的像素方法对比分析两者之间的区别。我们的发现表明,尽管变形金刚在处理全球环境和错综复杂的特征方面表现出色,但它们在保留深度梯度连续性方面落后于CNN。为了进一步增强在单眼深度估计中的变压器模型的性能,我们提出了深度梯度改进(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳传输距离作为损失函数来优化我们的模型。实验结果表明,与插件深度梯度改进(DGR)模块集成的模型以及所提出的损失函数可增强性能,而无需增加室外Kitti和室内NYU-DEPTH-V2数据集的复杂性和计算成本。这项研究不仅提供了深入估计转换器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。
单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展与该领域的常规CNN相比表现出显着的优势。但是,这些模型如何优先考虑2D图像中的不同区域以及这些区域如何影响深度估计性能,仍然存在差距。探索转移器和CNN之间的差异,我们采用了稀疏的像素方法来对比分析两者之间的区别。我们的发现表明,尽管变形金刚在全球环境和错综复杂的纹理中表现出色,但它们却落后于保留深度梯度连续性。在单眼深度估计中增强了变压器模型的性能,我们提出了深度差异(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳运输距离作为损失函数来优化我们的模型。实验结果表明,与插入深度梯度改进(DGR)模块集成的模型以及置换损失函数可增强性能,而无需增加室外Kitti和Indoor Nyu-Depth-v2数据集的复杂性和计算成本。这项研究不仅提供了深入估计变压器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。
摘要:一个简单的监督学习模型可以根据之前的学习过程从训练数据中预测一个类别。可以通过评估措施获得对这种模型的信任,这些措施可确保不同类别的预测结果中误分类错误更少。这可以应用于使用训练有素的数据集的监督学习,该数据集涵盖不同的数据点并且没有不平衡问题。当将半监督学习方法与动态数据流(例如社交网络数据)相结合时,这项任务具有挑战性。在本文中,我们为 Twitter 提出了一种基于流的进化机器人检测 (SEBD) 框架,该框架使用深度图神经网络。我们的 SEBD 框架是基于使用同伴链接和个人资料特征的多视图图注意力网络设计的。它集成了 Apache Kafka 以启用 Twitter API 流并在处理后预测帐户类型。我们使用可能近似正确 (PAC) 学习框架来评估 SEBD 的结果。我们的目标是保持框架的准确性和置信度,以便以较低的误分类错误率成功学习。我们使用测试保留、机器学习分类器、基准数据和基线工具通过跨域评估评估了我们的框架结果。总体结果表明,SEBD 能够以基于流的方式成功识别机器人账户。使用保留和随机森林分类器的交叉验证,SEBD 的准确度得分为 0.97,AUC 得分为 0.98。我们的结果表明,机器人账户在 Twitter 上的主题标签中参与度很高。
摘要:在海洋工程领域和海底结构的维护领域中,准确的下距离定量起着至关重要的作用。然而,由于向后散射和特征降解,这种测量的精度通常在水下环境中受到损害,从而对视觉技术的准确性产生不利影响。在应对这一挑战时,我们的研究引入了一种开创性的水下对象测量方法,将图像声纳与立体声视觉结合起来。这种方法旨在用声纳数据来补充水下视觉特征检测的差距,同时利用Sonar的距离信息进行增强的视觉匹配。我们的方法论将声纳数据无缝地集成到立体声视觉中使用的半全球块匹配(SGBM)算法中。这种集成涉及引入一个新型的基于声纳的成本术语并完善成本汇总过程,从而提高了深度估计的精度,并丰富了深度图内的纹理细节。这代表了对现有方法的实质性增强,尤其是在针对亚偏度环境下量身定制的深度图的质地增强中。通过广泛的比较分析,我们的方法表明,测量误差大大减少了1.6%,在挑战水下场景方面表现出了巨大的希望。我们算法在生成详细的深度图中的适应性和准确性使其与水下基础设施维护,勘探和检查特别相关。
我们引入了一种新的生成方法,用于合成3D几何形状和单视收集的图像。大多数现有的方法预测了体积密度,以呈现多视图一致的图像。通过使用神经辐射场进行体积重新定位,它们继承了一个关键限制:生成的几何形状嘈杂且不受限制,从而限制了输出网格的质量和实用性。为了打扮这个问题,我们提出了Geogen,这是一种新的基于SDF的3D生成模型,以端到端的方式训练。最初,我们将体积密度重新解释为签名距离函数(SDF)。这使我们能够引入有用的先验来生成有效的网格。然而,这些先验阻止了生成模型学习细节,从而将方法的可观性限制在现实世界中。为了解决这个问题,我们使转换可学习,并限制渲染深度图与SDF的零级集合一致。通过对手训练的镜头,我们鼓励网络在输出网格上产生更高的忠诚度细节。进行评估,我们介绍了一个从360度摄像机角度捕获的人类头像的合成数据集,以克服现实世界数据集所面临的挑战,而实际数据集通常缺乏3D同意,并且不涵盖所有摄像机角度。我们在多个数据集上进行的实验表明,与基于神经辐射场的先前发电模型相比,Geogen在视觉和定量上产生更好的几何形状。
文本到图像扩散模型在过去两年中取得了巨大的进步,从而可以基于开放域文本描述产生高度逼真的图像。,尽管它们成功,但文本描述通常也很难充分传达详细的控制,即使是由长长而复杂的文本组成的。此外,最近的研究还表明,这些模型在理解此类复杂文本和生成相应图像方面面临挑战。因此,越来越需要在文本描述之外启用更多的控制模式。在本文中,我们引入了Uni-Controlnet,这是一个统一的框架,允许同时利用不同的本地控件(例如,边缘地图,深度图,分割掩码)和全局控件(例如,剪辑掩码)(例如,剪贴图像嵌入),以一种单个模型的柔性和可构成方式。与现有方法不同,Uni-Controlnet仅需要在冷冻预训练的文本到图像扩散模型时对两个附加适配器进行微调,从而消除了从头开始的巨大培训成本。此外,由于一些专用的适配器设计,uni-controlnet只需要一个恒定数字(即2),而不管使用的本地或全局控件的数量如何。这不仅降低了微调成本和模型大小,因此更适合于现实世界的部署,而且还促进了不同条件的合成性。通过定量和定性比较,在可控性,发电质量和合成性方面,Uni-Controlnet展示了其优于现有方法的优势。代码可在https://github.com/shihaozhaozsh/uni-controlnet上找到。
将立即通过增强的镜像视频显示,并与他们的学生一起视觉实现。以这种方式,我们的方法赋予了教学的能力,其概念的内在形式被称为角色实施例[Keevallik 2010],在该概念上,学生可以通过视觉吸引学生作为历史人物,科学专业人士或文化偶像,从而创造出更丰富,更沉浸式的学习经验,以实现的角色扮演[CarniceroerPérezet al al and。2023]。要以更高的精确度来完善和直接产生图像,这项研究特别结合了ControlNet,这是一种稳定扩散的开发,旨在增强对生成的输出的控制,从而确保视觉转换与文本提示的教育目标和提供的相机输入图像Snapshot [Zhang等人[Zhang et al》中均符合。2023]。上游,我们整合了语音识别,以将自然的口语接口与受控的导向图像生成相关。生成的AI模型,例如DALL-E或GPT4,可以从文本描述中综合高保真视觉内容。尽管它们的实用性,这些模型从根本上受到其对文本的依赖的限制,因为它们是唯一的条件输入。此约束限制了其将生成的输出调整为结构化空间输入的能力,例如深度图,语义分割掩码或姿势配置。因此,此类模型不适合需要与实时背景(例如交互式环境和实时个人化)进行精确对齐的应用。2021]。2020]。2020]与ControlNet结合[Zhang等。相比之下,ControlNet通过启用多模式输入模式(包括深度图)的整合到生成过程中来解决这一差距。深度调节是将视觉输出与参与者的物理概况(例如身体形状和空间布置)进行实时设定的关键。此功能将生成模型的适用性扩展到需要上下文和参与者特定输出的域。通过利用基于深度的调节,ControlNet促进了视觉效果的产生,这些视觉效果不仅在语义上是准确的,而且在空间上是连贯的,从而支持了新颖的应用,例如具有体现的角色扮演和沉浸式,上下文感知的教育体验。通过生成AI的角色体现与沉浸式学习的研究保持一致,当学生在教育场景中扮演角色或角色时,学生更加深入地参与。研究表明,体现历史人物的体现会发展出同理心并增强记忆力保留,因为学生与材料有着共同的联系[Miguel-Revilla等。类似地,在STEM领域,学生可以通过诸如科学家,工程师或宇航员等原型横向探索角色,这些原型将其转化为对主题的更强识别并支持持续的参与[Singer等人。更详细地探索了各种文化舞蹈风格,作为教学场景,以更直接的舞蹈学生与视觉体现的教学环境联系起来。本文采用了稳定扩散的机制引入了一个框架[Ho等。2023]实现适用于教学环境中的有针对性的特定角色转换。这种集成使受控的视觉自定义符合教室内成像的人类形式,从而使教育工作者可以设计具有与各种主题的教育目标相吻合的沉浸式,上下文准确的体验。本文的主要技术贡献是:
摘要 - 全球农业行业已经面临各种问题,例如人口迅速增长和气候变化。在几个国家中,日本的农业劳动力在下降。为了解决这个问题,日本政府旨在实现应用信息和通信技术,人工智能和机器人技术的“智能农业”。智能农业要求开发机器人技术来进行除草和其他劳动密集型农业任务。机器人除草由一种使用机器学习的对象检测方法组成,以对杂草和农作物进行分类以及使用机器人手和激光器的自主除草系统。但是,这些方法使用的方法会根据作物的生长而改变。除草系统必须根据作物的生长考虑组合。本研究介绍了杂草检测和农作物混合脊(例如大蒜和姜田)中的自主除草。我们首先使用Mask R-CNN开发一种杂草检测方法,该方法可以通过RGB-D相机捕获的颜色图像来检测单个杂草。所提出的系统可以根据检测到的杂草区域和相机捕获的深度图像在物理空间中获得杂草坐标。随后,我们提出了一种指导除草剂操纵器向检测到的杂草坐标的方法。本文通过这两种建议的方法整合了杂草检测和自主除草。我们评估了在实际领域拍摄的图像训练的面膜R-CNN的性能,并证明所提出的自主除草系统在复制的山脊上起作用,其人造杂草类似于大蒜和杂草叶子。
对归因图的社区检测,具有丰富的语义和拓扑信息为现实世界网络分析,尤其是在线游戏中的用户匹配提供了巨大的潜力。图形神经网络(GNNS)最近启用了深度图(DGC)方法,从语义和拓扑信息中学习群集分配。但是,它们的成功取决于与社区数量有关的先验知识,由于收购的高成本和隐私问题,这是不现实的。在本文中,我们研究了与事先的社区检测问题,称为𝐾 -free社区检测问题。为了解决这个问题,我们提出了一种新颖的深层自适应模型(DAG),以供社区检测,而无需指定先前的𝐾。DAG由三个关键组件组成,即带有屏蔽属性重新构造的节点表示模块,一个社区关联读数模块以及具有组稀疏性的社区编号搜索模块。这些组件使DAG能够将非差异性网格搜索的过程转换为社区编号,即存在的DGC方法中的离散超级参数,将其转换为可区分的学习过程。以这种方式,DAG可以同时执行社区检测和端到端的社区编号搜索。为了减轻现实世界应用中社区标签的成本,我们设计了一种新的指标,即使标签不可行,也可以评估社区检测方法。在五个公共数据集和一个现实世界的在线手机游戏数据集上进行了广泛的离线实验
背景:可视化和理解3维(3D)神经解剖学是具有挑战性的。尸体解剖受到低可用性,高成本和对专业设施的需求的限制。新技术,包括神经影像学的3D渲染,3D图片和3D视频,正在填补这一差距并促进学习,但它们也有局限性。这项概念验证研究探讨了将3D重建的神经影像数据与3D摄影测量法结合现实的纹理和精细解剖细节相结合的空间精度的可行性,以创建高实现cadaveric cadaveric神经外科外科手术模拟。方法:四个固定和注射的尸体头进行了神经影像学。为创建3D虚拟模型,使用磁共振成像(MRI)和计算机断层扫描(CT)扫描渲染表面,并创建了分段的解剖结构。通过同步神经措施和摄影测量数据收集进行了逐步的颅骨切开术。在3D导航空间中获取的所有点均在3D虚拟模型空间中导入并注册。一种新型的机器学习辅助单眼估计工具用于创建2维(2D)照片的3D重建。深度图被转换为3D网状几何形状,该几何形状与3D Virtual Model的脑表面解剖结构合并以测试其精度。定量测量值用于验证不同技术的3D重建的空间精度。结果:使用体积神经影像数据创建了成功的多层3D虚拟模型。合并了2个模型时,单眼深度估计技术创建了照片的定性准确3D表示。