视觉神经科学的主要目的是阐明人脑在自然场景中如何代表各种信息。对场景感知的行为研究表明,人类将场景归类为更有效地处理视觉场景中的大量信息(Greene&Oliva,2009; Konkle,Konkle,Brady,Alvarez,&Oliva,&Oliva,&Oliva,2010; Rousselet,Joubert,&Fabre-Thorpe,2005年)。因此,场景类别上的信息可能在皮质上表示。与这一概念一致,以前的神经影像学研究表明,视觉场景的类别可以在基于血液氧气水平(大胆的)响应(大胆的)响应中的有限数量的基本类别(例如,海滩,森林,山脉)之间进行分类。 OPA), object-selective lateral occipital complex (LO), and anterior visual cortex ( Epstein & Morgan, 2012 ; Jung, Larsen, & Walther, 2018 ; Walther, Caddigan, Fei e Fei, & Beck, 2009 ; Walther, Chai, Caddigan, Beck, & Fei e Fei, 2011 ).这些研究中的一种常见方法是将视觉场景定义为几个非重叠类别。然而,自然场景可能显示出不同程度的统计相关性,并且在几个不同的类别下可能会表征现实世界的场景。此外,由于这些研究使用了静态场景,因此它们没有必要的工具来证明人类大脑中的动态场景类别是如何代表的。Stansbury等。要检查自然场景类别的统计数据,最近的一项研究(Stansbury,Naselaris和Gallant,2013年)使用了数据驱动的算法来采购广泛的场景,其中还考虑了这些类别之间的潜在相似性。在这种方法中,将每个场景类别定义为在自然场景中出现的大量组成对象的存在概率列表。一旦算法学习一组类别,就可以根据场景中的对象来推断给定场景属于每个学到的类别的可能性。据报道,与基于一些经常出现在提出的自然图像中经常出现的诊断对象的存在相比,与替代模型相比,经典面部和场景选择区域中单素大胆响应的预测得到了改进的预测(Stansbury et al。,2013年)。此结果提高了对象共发生统计构成场景的基础的可能性。通过其组成对象定义了静态场景的类别,并着重于经典场景选择区域中的类别响应,例如许多先前关于场景代表的研究(Epstein&Morgan,2012; Jung et al。,2018; Walther等,2009,2011,2011; Jung et al。,2018; Jung et al。然而,最近的几项研究表明,大部分前视觉皮层可能是通过对视觉场景中的动作进行差异调整来组织的(Tarhan&Konkle,2020;CáUkur,Huth,Huth,Nishimoto和Gallant,2016年)。实际上,现实世界的场景包含对象和动作之间的动态影响(Greene,Baldassano,Esteva,Beck,Beck,&Fei E Fei,
空间选择性注意极大地影响了我们对复杂视觉场景的处理,但大脑选择相关物体而抑制不相关物体的方式仍不清楚。使用非侵入性脑电图 (EEG) 发现了这些过程的证据。然而,很少有研究描述在注意动态刺激期间这些测量值的特征,而且对于这些测量值如何随着场景复杂性的增加而变化知之甚少。在这里,我们比较了三个视觉选择性注意任务中 EEG N1 和 alpha 功率(8-14 Hz 之间的振荡)的注意力调节。这些任务在呈现的不相关刺激数量上有所不同,但都需要持续注意侧化刺激的方向轨迹。在几乎没有不相关刺激的场景中,自上而下的空间注意控制与顶叶-枕叶通道中 N1 和 alpha 功率的强烈调节有关。然而,在两个半视野中都有许多不相关刺激的场景中,自上而下的控制不再表现为对 alpha 功率的强烈调制,并且 N1 振幅总体上较弱。这些结果表明,随着场景变得更加复杂,需要在两个半视野中进行抑制,自上而下控制的神经特征会减弱,这可能反映了 EEG 在表示这种抑制方面存在一些局限性。
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
▪灾难侦察报告,当上传时,它可以快速摘要和信息检索[1]。▪对于特定的知识(例如,F级规模和EF尺度之间的统计关系),需要一些上传文档的提示。3。有关天气和气候模拟大型AI模型中最新进展的全面知识,但直到2023年。
想象一个未来的家庭机器人,旨在快速准备突破。该机器人必须有效执行各种任务,例如在橱柜中进行库存检查,从冰箱中获取食物,从抽屉里收集餐具,以及在食物覆盖物下剩下的剩菜。取得成功的关键是与环境互动和探索环境的问题,尤其是找到不立即可见的项目。将其配备这种功能对于机器人有效完成其日常任务至关重要。机器人探索和积极的感知长期以来一直在挑战机器人技术[1-16]。已经提出了各种技术,包括信息理论,好奇心驱动的探索,基于边境的甲基动物和模仿学习[1,13 - 13 - 15,17 - 25]。然而,以前的研究主要集中在探索静态环境上,仅通过更改导航设置中的观点,或仅限于与一小部分对象类别(例如抽屉)或一组封闭的简单操作(例如推动)的相互作用[26]。在这项工作中,我们研究了交互式场景的利用任务,目标是有效地识别所有对象,包括直接可观察到的对象,以及只能通过机器人和环境之间的相互作用发现的对象(见图1)。朝向这个目标,我们提出了一个新颖的场景表示,称为“动作条件” 3D场景图(ACSG)。然后,我们证明可以将交互式场景探索作为动作条件的3D场景图形结构和遍历的问题。与这些与专注于编码静态关系的常规3D场景图不同,ACSG同时编码空间关系和逻辑关联指示动作效应(例如,打开冰箱内部揭示了一个苹果)。解决互动场景探索带来了挑战:我们如何推理需要探索哪些对象,选择与它们互动的正确动作,以及对我们的探索发现的知识?
编辑场景图像在各个领域都非常重要,从娱乐,专业摄影和广告设计开始。内容编辑可以为观众创造沉浸式和迷人的体验,有效地传达艺术愿景并实现所需的美学结果。随着深层生成建模的快速发展,已经进行了许多尝试有效地编辑图像的尝试。但是,他们遇到了阻碍潜力的局限性。以前的方法主要集中在2D图像空间中的场景编辑上。他们通常依靠生成先验,例如gan和扩散模型(DM),并采用了诸如修改跨注意机制的技术[Hertz等。2022,2023],以及网络参数的优化[Chen等。2023a; Gal等。2022; Kawar等。2023; Kim等。2022; Ruiz等。2023]在场景图像中编辑外观和对象身份。尽管已做出一些努力将这些方法扩展到3D编辑,但它们忽略了3D提示,并在保持3D一致性方面构成了挑战,尤其是在更改摄像头姿势时。此外,这些方法通常集中在全球场景上,并且缺乏准确地解开对象的能力,从而导致对3D级别对单个对象的控制有限。为了编辑任何场景图像并启用对场景及其单个对象的3D控制,我们提出了3DITSCENE,这是一个新颖的场景编辑框架,该框架利用了新的场景表示形式,语言指导的散布高斯散布。2022; Rombach等。具体而言,给定的图像首先投影到3D高斯人中,这些高斯人通过2D生成的先验进一步完善并富集[Poole等。2022]。因此,我们获得了一个综合的3D场景表示,该表示自然可以为给定图像提供新的视图综合。此外,剪辑中的语言特征被蒸馏到相应的3D高斯人中,将语义引入3D几何形状。这些语义3D高斯人有助于将单个对象从整个场景表示中删除,从而导致语言引导的散布的高斯人进行场景分解。他们还允许更具用户友好的交互作用,即用户可以通过文本查询特定的对象或兴趣。为此,我们的3DITSCENE可实现从2D到3D的无缝编辑,并允许在全球和个人层面上进行修改,使创建者能够精确控制场景组合和对象级的编辑。我们将管道称为3DITSCENE。与以前的工作不同,该作品着重于解决单一类型的编辑,3DITSCENE INTETE-GRETS编辑要求在统一框架内。我们的预告片数字通过展示其在不同场景图像中的应用来演示3DITSCENE的多功能性。我们在各种环境下对3DITSCENE进行了评估,结果证明了基线方法的显着改善。
摘要:我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个动作条件的场景图(ACSG),该图形图(ACSG)捕获了基础环境的结构。ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们提出了机器人探索(RoboExp)系统,该系统结合了大型多模型(LMM)和明确的内存设计,以增强我们的系统功能。机器人的原因以及如何探索对象,通过交互过程累积新信息,并逐步构建ACSG。利用构造的ACSG,我们说明了机器人系统系统在促进涉及涉及刚性,清晰的对象,嵌套对象和可变形对象的各种真实的操纵任务方面的有效性和效率。项目页面:https://jianghanxiao.github.io/roboexp-web/