摘要:扩散策略是有条件的扩散模型,这些模型学习以机器人和环境状态为条件的机器人动作分布。他们最近显示出胜过确定性和替代作用分布学习公式的表现。3D机器人策略使用3D场景特征表示形式使用感应深度从单个或多个相机视图汇总。他们已经显示出比在相机观点之间更好地概括其2D对应物。我们统一了这两条工作和现在的3D扩散器演员,这是一种具有新颖的3D DeNoising Transformer的神经政策,它融合了来自3D视觉场景的信息,语言指令和本体感受,以预测NOISISE 3D ROBOT姿势的噪声。3D扩散器Actor在RLBench上设置了新的最先进的,其绝对性能增益比当前的SOTA在多视图设置上占据了18.1%,并且在单视图设置上的绝对增益为13.1%。在加尔文基准测试上,它比当前的SOTA相对增加了9%。它还学会了通过少数示威来控制现实世界中的机器人操纵器。通过与当前的SOTA策略和模型的消融进行彻底比较,我们显示了3D扩散器演员的设计选择极大地超过了2D表示,回归和分类目标,绝对关注和整体非言语的非言语非言语的3D场景嵌入。
在众多科学研究尝试中,虚拟现实(VR)是认知神经科学和神经心理学最引人注目、最富有成果的场景之一(Bohil 等人,2011 年;Parsons 等人,2020 年)。由于其灵活性和对不同范围的适应性,VR 技术已经从单纯的显示 VR(在 2D 显示器上实现无深度交互的模拟)发展到沉浸式虚拟现实(IVR),它模仿并与物理世界重叠,完全吸引身体(Slater,2009 年)。VR 允许完全操纵环境(如视觉场景)和身体相关(如躯体特征)参数(Slater 等人,2008 年;Peck 等人,2013 年;Chan 等人,2021 年);另一个优势是,它可以与其他测量方法结合使用,例如脑机接口 (BCI)(Nierula 等人,2021 年)和运动跟踪系统(Banakou 等人,2013 年),这使其成为神经科学家探索运动和认知功能的一种值得注意的方法。虽然 VR 在认知神经科学中的最初用途是通过正确呈现虚拟环境和虚拟身体来提供存在感(Sanchez-Vives 和 Slater,2005 年),但它最近已扩展到临床人群的诊断和康复策略(Matamala-Gomez 等人,2021 年)。涉及 VR 的研究范围从探索运动和身体自我意识(Herbelin 等人,2016 年)等基本概念,到临床治疗(Ziat 等人,2014 年;Chin 等人,2021 年)以及注意力和视觉空间障碍的方法(Gammeri 等人,2020 年;De Luca 等人,2021 年)和临床。
生成模型中的进步引发了人们对产生图像的重大兴趣,同时遵守特定的结构指南。场景图到图像生成就是生成与给定场景图一致的图像的一项任务。然而,视觉场景的复杂性在基于场景图内的指定关系准确对齐的观察中提出了一个挑战。现有方法通过先预测场景布局并使用对抗性训练从这些布局生成图像来处理此任务。在这项工作中,我们介绍了一种新颖的方法来从场景图中产生iM,从而消除了预测中间布局的需求。我们利用预先训练的文本对图像扩散模型和剪辑指导来将图形知识转化为图像。向此,我们首先使用基于GAN的培训将图形编码器与相应图像的剪辑特征与相应图像的剪辑特征对齐。此外,我们将图形特征与给定场景图中存在的对象标签的剪辑嵌入融合在一起,以创建一个一致的剪辑引导性调节信号。在条件输入中,对象嵌入提供了图像的粗糙结构,图形特征提供了基于对象之间关系的结构对齐。fi-Nelly,我们对图一致的调节信号和夹子对准损失的图一致的调节信号进行了预训练的扩散模型。详细的实验表明,我们的方法在可可粘合和视觉基因组数据集的标准基准上的现有方法优于现有方法。我们的代码和重现结果的说明可以在https://anonymon.4open.science/r/gandiffuclip-d9e8中找到。
深度神经网络 (DNN) 特征与皮质反应之间的一致性目前为更高级的视觉区域提供了最准确的定量解释 [1、2、3、4]。与此同时,这些模型特征也被批评为无法解释的解释,将一个黑匣子(人脑)换成了另一个黑匣子(神经网络)。在本文中,我们训练网络直接从头开始预测大脑对来自大规模自然场景数据集的图像的反应 [5]。然后,我们使用“网络解剖” [6],这是一种可解释的人工智能技术,通过识别和定位图像中已训练网络的各个单元中最显著的特征来增强神经网络的可解释性,该技术已用于研究人脑的类别选择性 [7]。我们采用这种方法创建了一个假设中立模型,然后使用该模型探索类别选择性之外的特定视觉区域的调节特性,我们称之为“大脑解剖”。我们利用大脑解剖来研究一系列生态上重要的中间特性,包括深度、表面法线、曲率和物体关系,这些特性贯穿顶叶、外侧和腹侧视觉流以及场景选择区域的子区域。我们的研究结果揭示了大脑各区域对解释视觉场景的不同偏好,其中腹外侧区域偏爱较近和较弯曲的特征,内侧和顶叶区域选择更多样化和更平坦的 3D 元素,而顶叶区域则特别偏爱空间关系。场景选择区域表现出不同的偏好,因为后压部复合体偏爱远处和户外特征,而枕叶和海马旁回区域偏爱近处、垂直性,而在 OPA 的情况下,偏爱室内元素。这些发现表明,使用可解释的人工智能揭示整个视觉皮层的空间特征选择性具有潜力,有助于更深入、更细致地了解人类视觉皮层在观看自然场景时的功能特征。
Crundall, D. E., & Underwood, G. (1998).经验和处理需求对驾驶员视觉信息获取的影响。人体工程学,41 (4),448 – 458。Ellis, S. R., & Stark, L. (1986)。视觉扫描中的统计依赖性。人为因素:人为因素和人体工程学学会杂志,28 (4),421 – 438。Green, P. (2015)。驾驶员在驾驶时看哪里(以及看多长时间)。交通安全中的人为因素,77 – 110。Harris Sr, R. L., Glover, B. J., & Spady Jr, A.A.(1986)。飞行员扫描行为的分析技术及其应用 (NASA Tech.报告号2525)。弗吉尼亚州汉普顿:兰利研究中心。Haslbeck, A., & Zhang, B.(2017)。我用我的小眼睛观察:在手动仪表飞行场景中分析航空公司飞行员的注视模式。应用人体工程学,63,62 – 71。Hillier,F. S.(2012)。运筹学简介。Tata McGraw - Hill Education。国际标准化组织。(2002)。ISO 15007 - 1:道路车辆 - 测量与运输信息和控制系统相关的驾驶员视觉行为 - 第 1 部分:定义和参数。摘自 http://www.iso.org Itoh,Y.,Hayashi,Y.,Tsukui,I.,& Saito,S.(1990)。飞机飞行员眼球运动和心理工作负荷的人体工程学评估。人体工程学,33 (6),719 – 732。Jeong, H.,& Liu, Y.(2019)。非驾驶相关任务模式和道路几何形状对驾驶时眼球运动、车道保持性能和工作量的影响。交通研究 F 部分:心理学和行为,60,157 – 171。Kang, Z.,& Landry, S. J.(2014)。使用扫描路径作为多目标跟踪冲突检测任务的学习方法,56 (6),1150 – 1162。Kang, Z., & Landry, S. J.(2015)。多元素目标跟踪任务的眼动分析算法:基于最大转换的聚集层次聚类。IEEE 人机系统学报,45 (1),13 – 24。Krejtz, K., Duchowski, A., Szmidt, T., Krejtz, I., González Perilli, F., Pires, A., … Villalobos, N. (2015)。凝视转换熵。ACM 应用感知通讯 (TAP),13 (1),4 – 20。Liang, Y.、Horrey, W. J. 和 Hoffman, J. D. (2015)。开车时阅读文本:了解驾驶员对分心的战略和战术适应。人为因素:人为因素和人体工程学学会杂志,57 (2),347 – 359。Liang, Y., Lee, J. D., & Yekhshatyan, L. (2012)。视线偏离道路有多危险?算法根据自然驾驶中的扫视模式预测碰撞风险。人为因素:人为因素和人体工程学学会杂志,54 (6),1104 – 1116。Liechty, J., Pieters, R., & Wedel, M. (2003)。全局和局部隐性视觉注意:来自贝叶斯隐马尔可夫模型的证据。Psycho- metrika,68 (4),519 – 541。Marchitto,M.,Di Stasi,L. L.,& Cañas,J. J.(2012)。任务负荷操纵下的眼球运动:几何形状对空中交通管制模拟任务中扫视的影响。制造业和服务业的人为因素和人体工程学,22 (5),407 – 419。Milton,J.,& Mannering,F. (1998)。公路几何形状、交通相关元素和机动车事故频率之间的关系。交通运输,25 (4),395 – 413。Mourant, R. R. 和 Rockwell, T. H. (1970)。将眼球运动模式映射到驾驶中的视觉场景:一项探索性研究。人为因素:人为因素和人体工程学学会杂志,12 (1),81 – 87。Noton, D. 和 Stark, L. (1971)。眼球运动和视觉感知。《科学美国人》 ,224 (6),34 – 43。Pradhan, A. K.、Hammel, K. R.、DeRamus, R.、Pollatsek, A.、Noyce, D. A. 和 Fisher, D. L. (2005)。使用眼球运动评估驾驶员年龄对驾驶模拟器中风险感知的影响。《人为因素:人为因素和人体工程学学会杂志》 ,47 (4),840 – 852。