仿真是培训深度学习模型的越来越多的数据源。在机器人技术中,模拟已成功地用于学习诸如导航,步行,飞行或操纵之类的行为。模拟中数据生成的价值主要取决于场景布局的多样性和规模。现有数据集(Ehsani等,2021; Garcia-Garcia等,2019; Mo等,2019; Nasiriany等,2024)在这方面受到限制,而纯粹的生成模型仍然缺乏在物理模拟中可以使用的场景(HOLLEIN及2023 al。el。,et e e eT el。 2024)。其他程序管道要么专注于学习视觉模型(Denninger等,2023; Greff等,2022; Raistrick等,2023),要解决特定的用例,例如自主驾驶(Fremont等,2020; Hess等; Hess等,2021),或者很难扩展和自定义的平台(它们是一个特定的平台(它们是一个与众不同的平台(DET)(DEIT)(DEIT)(DEIT)(DEIT)(DEIT)(DETIT)(DETER)(DETER)。 )。使用scene_synthesizer我们提出
从人类大脑活动中重建视觉体验提供了一种独特的方式来理解大脑如何表征世界,并解释计算机视觉模型和我们的视觉系统之间的联系。虽然深度生成模型最近已被用于这项任务,但重建具有高语义保真度的真实图像仍然是一个具有挑战性的问题。在这里,我们提出了一种基于扩散模型 (DM) 的新方法来重建通过功能性磁共振成像 (fMRI) 获得的人脑活动图像。更具体地说,我们依赖于称为稳定扩散的潜在扩散模型 (LDM)。该模型降低了 DM 的计算成本,同时保留了其高生成性能。我们还通过研究 LDM 的不同组成部分(例如图像 Z 的潜在向量、条件输入 C 和去噪 U-Net 的不同元素)与不同大脑功能的关系来描述 LDM 的内部机制。我们证明了我们提出的方法可以重建高分辨率图像,保真度高,直
由于碰撞风险增加,铁路交叉路口是铁路安全的关键要素。运输机构和研究人员一直在努力通过更好的操作程序和设备来提高铁路交叉路口的安全,以避免发生事故。已经提出了许多创新方法,用于使用传感器,计算机视觉,深度摄像机等技术在交叉和铁轨上检测危害。但是,仍然有必要开发一种整体方法,该方法适用于与年级交叉事故有关的许多条件和危害。该项目调查了人工智能(AI)和深度学习(DL)模型,以监视成绩穿越并检测各种危险条件,例如车辆,行人,骑自行车的人,动物,警告灯等。为此,该方法包括(1)收集铁路交叉路口的视觉数据; (2)标记培训的数据; (3)使用深度学习开发计算机视觉模型,该模型可以检测铁路交叉路口的危险条件。最终,这项研究的结果支持在交叉处进行现代化和提高安全性。
摘要 - 健康的城市绿化是减轻气候变化现象(例如极端热量和空气污染)的基本资产。然而,城市树通常会受到非生物和生物压力源的影响,这些压力源会阻碍其功能性,并且每当不及时管理,甚至是其生存。虽然当前的绿化检查技术可以帮助采取有效的措施,但它们通常需要大量的人工劳动,因此在整个城市范围内都无法进行频繁的评估。在本文中,我们提出了Greenscan,这是一种基于地面的传感系统,旨在在高时空的高时期范围内对城市树的健康评估,价格低廉。该系统使用使用自定义计算机视觉模型融合的热和多光谱成像传感器来估计两个树健康指数。该系统的评估是通过美国剑桥市的数据集合实验进行的。总的来说,这项工作说明了一种新型的方法,用于以低成本的高时间分辨率,以高成本的高度分辨率对全市范围进行自动移动地面健康监测。
我们研究了深层生成模型对即将到来的计算机视觉模型中潜在社会偏见的影响。互联网目睹了a-a-a-a-aford图像的涌入,因此对可能伴随的固有偏见产生了担忧,这可能导致有害内容的分离。本文探讨了如果将生成的图像用作未来模型的训练数据,是否会发生有害的反馈回路,导致偏差。我们通过逐步将可可和CC3M数据集中的原始图像替换为通过稳定的差异生成的图像来进行模拟。修改后的数据集用于训练OpenCLIP和图像字幕模型,我们根据质量和偏差进行评估。与期望相反,我们的发现表明,在训练期间引入产生的图像并不能统一扩大偏见。相反,观察到跨特定任务的偏置缓解实例。我们进一步阐述了可能影响这些现象的因素,例如图像生成中的伪像(例如,模糊的面孔)或原始数据集中的预先偏见。
Guest Editors Xiang Li, King Abdullah University of Science and Technology (xiangli92@ieee.org) Xiao Xiang Zhu, Technical University of Munich (xiaoxiang.zhu@tum.de) Gui-Song Xia, Wuhan University (guisong.xia@whu.edu.cn) Sherrie Wang, Massachusetts Institute of Technology (sherwang@mit.edu)武汉大学(balz@whu.edu.cn)蒂莫·巴尔兹(Timo Balz),阿卜杜拉国王科学技术大学(Mohamed.elhaseiny@kaust.edu.sa)Mohamed Elhoseiny,远程传感的视觉语言模型(VLMS)。vlms代表了计算机视觉和自然语言处理技术的开创性整合,旨在通过对视觉和文本信息的更细微的理解来增强与RS数据的解释和互动。通过弥合视觉识别和语义理解之间的差距,VLM提供了一个全面的框架,通过实现复杂的语义分析和自然语言描述功能,超越了传统的视觉任务。更重要的是,通过将视觉模型与LLM相结合,VLM可以利用验证的LLMS中的先验知识来解决复杂的推理任务。
抽象视觉模型对于需要了解视觉和语言元素的任务变得越来越强大,从而弥合了这些方式之间的差距。在多模式临床AI的背景下,对具有特定领域知识的模型的需求越来越大,因为现有模型通常缺乏医疗应用所需的专业知识。在本文中,我们以脑部异常为例,以演示如何自动收集医学图像文本对齐数据,以从PubMed等公共资源进行预处理。特别是我们提出了一条管道,该管道通过最初从病例报告和已发表的期刊收集大脑图像-TEXT数据集来简化预训练过程,然后随后构建针对特定医疗任务量身定制的高性能视觉语言模型。我们还调查了将亚法图映射到医疗领域中的亚captions的独特挑战。我们通过定量和定性的内在评估评估了所得模型。可以在此处找到生成的数据集和我们的代码https://github.com/masoud-monajati/medvl_pretrataining_pipeline
机器学习模型很难推广到它们所训练的分布之外的数据。特别是,视觉模型通常容易受到对抗性攻击或常见损坏的影响,而人类视觉系统对此具有鲁棒性。最近的研究发现,将机器学习模型正则化以支持类似大脑的表示可以提高模型的鲁棒性,但原因尚不清楚。我们假设模型鲁棒性的提高部分归因于从神经表征中继承的低空间频率偏好。我们通过几种频率导向分析测试了这个简单的假设,包括设计和使用混合图像来直接探测模型频率敏感性。我们还研究了许多其他公开可用的鲁棒模型,这些模型是在对抗性图像或数据增强上训练的,发现所有这些鲁棒模型都表现出对低空间频率信息的更大偏好。我们表明,通过模糊进行预处理可以作为防御对抗性攻击和常见损坏的机制,进一步证实了我们的假设并证明了低空间频率信息在鲁棒物体识别中的效用。
现有的人类对象互动(HOI)检测方法已经引入了零拍的学习技术来认可看不见的相互作用,但是它们在理解上下文信息和全面的重新构成方面仍然存在局限性。为了克服这些局限性,我们提出了一个新型的HOI学习框架ContexThoi,它是一种效率的上下文HOI探测器,以增强上下文的理解和零拍的推理能力。所提出的contexthoi的主要贡献是一种新颖的上下文挖掘解码器和强大的互动推理大语言模型(LLM)。上下文挖掘解码器旨在从预先训练的视觉模型中提取语言上下文信息。基于提取的上下文信息,提出的相互作用推理LLM通过利用丰富的语言知识进一步增强了零拍的推理能力。广泛的评估表明,我们所提出的框架在HICO-DET和SWIG-HOI数据集上优于现有的零射击方法,在未看到交互的情况下高达19.34%的映射。
视觉不仅可以检测和识别物体,还可以对导致我们看到的光图案的底层场景结构进行丰富的推断。反转生成模型或“综合分析”提供了一种可能的解决方案,但其机械实现通常对于在线感知来说太慢,并且它们与神经回路的映射仍不清楚。在这里,我们提出了一种神经上合理的高效逆向图形模型,并在人脸识别领域对其进行了测试。该模型基于一个深度神经网络,该网络可以学习在一次快速前馈过程中反转三维人脸图形程序。它定性和定量地解释了人类行为,包括经典的“空心脸”错觉,并直接映射到灵长类动物大脑中专门的面部处理电路上。与最先进的计算机视觉模型相比,该模型更适合行为和神经数据,并提出了一种可解释的逆向工程来解释大脑如何将图像转化为感知。