在这项工作中,我们提出了一种用于人形 iCub 机器人头部姿势估计和场景表示的神经形态架构。脉冲神经网络在英特尔的神经形态研究芯片 Loihi 中完全实现,并精确整合发出的运动命令,以在神经路径整合过程中估计 iCub 的头部姿势。iCub 的神经形态视觉系统用于校正姿势估计中的漂移。机器人前方物体的位置使用片上突触可塑性来记忆。我们使用机器人头部的 2 个自由度 (DoF) 进行实时机器人实验,并展示精确的路径整合、视觉重置和片上物体位置学习。我们讨论了将机器人系统和神经形态硬件与当前技术集成的要求。
我们提出了一种类别级 6D 物体姿势和大小估计的新方法。为了解决类内形状变化,我们学习了规范形状空间 (CASS),它是特定物体类别的大量实例的统一表示。具体而言,CASS 被建模为具有规范化姿势的规范 3D 形状的深度生成模型的潜在空间。我们训练变分自动编码器 (VAE) 以从 RGBD 图像在规范空间中生成 3D 点云。VAE 以跨类别的方式进行训练,利用公开可用的大型 3D 形状存储库。由于 3D 点云是以规范化姿势(具有实际大小)生成的,因此 VAE 的编码器学习视图分解的 RGBD 嵌入。它将任意视图中的 RGBD 图像映射到与姿势无关的 3D 形状表示。然后,通过将物体姿势与使用单独的深度神经网络提取的输入 RGBD 的姿势相关特征进行对比来估计物体姿势。我们将 CASS 的学习和姿势和尺寸估计集成到端到端可训练网络中,实现了最先进的性能。
3D人姿势估计(3D HPE)任务使用2D图像或视频来预测3D空间中的人类关节坐标。尽管最新的基于深度学习的方法取得了进步,但它们主要忽略了可访问的文本和自然可行的人类知识的能力,而错过了有价值的隐性监督,以指导3D HPE任务。此外,以前的努力经常从整个人体的角度研究这项任务,从而忽略了隐藏在不同身体部位的细粒度指导。为此,我们基于3D HPE的扩散模型(名为FinePose)提出了一个新的细粒及时驱动的DeNoiser。它由三个核心块组成,增强了扩散模型的反向过程:(1)通过耦合辅助辅助文本和可学习的提示以模拟隐式指南的耦合知识,并通过耦合的辅助辅助文本和自然可行的零件知识,可以通过耦合的辅助辅助文本和自然可行的零件知识来构建精细的部分零件感知的提示。(2)Fine-
我们介绍了CGAPOSENET+GCAN,它通过使用几何Clifford代数网络(GCAN)增强了CGAPOSENET,这是相机姿势回归的架构。添加GCAN,我们仅从RGB图像中获得了相机姿势回归的几何感知管道。cgaposenet使用Clifford几何代数将四元组和翻译向量统一为单个数学对象,即电动机,可用于独特地描述相机姿势。cgaposenet可以在其他方法中获得综合结果,而无需调查损失功能或有关场景的其他信息,例如3D点云,这可能并不总是可用。cgaposenet就像文献中的几种方法一样,只学会了预测运动系数,并且没有意识到预测位于其几何含义的数学空间。通过利用几何深度学习的最新进展,我们从GCAN上修改了CGAPOSENET:从InceptionV3背骨中获得与摄像机框架相关的可能的运动系数的建议,然后通过在G 4,0中使用的一组层来,将它们通过单个电动机为单个电动机。网络的工作是几何意识,具有多活性价值in-
空间注意力的机制优先考虑与其他位置相对于其他位置的感官信息。这些机制已通过多种方法进行了深入的研究,包括心理物理学,事件型大脑电位,功能成像和单细胞记录(例如,参见Parasuraman,1998年,有关所有这些方法的发现)。这项工作导致了许多可复制的发现和一些重要的区别。的秘密关注转移(例如Mangun,Hillyard和Luck,1993; Posner,1978)。刺激驱动的外源机制已与预期驱动的内源性机制区分开来(例如Hopfinger&Mangun,1998; Jonides,1981; Posner,1978)。通常通过使用空间非预测的外围提示来研究前者,后者通过中央提示或指示可能目标位置的指令进行研究。两种形式的提示都可以在提示的位置带来性能优势,但是外源和内源性机制被认为在几种方面有所不同,包括其效果的时间过程(例如,外源性效应通常更短暂地遵循
对准确的3D手姿势估计的追求是理解以自我为中心视力领域的人类活动的基石。大多数现有估计方法仍然依赖单视图像作为输入,从而导致潜在的局限性,例如,深度有限的视野和义务。解决这些问题,添加另一个相机以更好地捕获手的形状是实践方向。然而,现有的多视图手姿势姿势方法具有两个主要缺点:1)重新训练的多视图注释,这些注释是备用的。2)在测试过程中,如果相机参数/布局与训练中使用的相同,则模型将变为inpapplicable。在本文中,我们提出了一种新颖的单算观看改编(S2DHAND)解决方案,该解决方案将预先训练的单视估计器适应双视图。与现有的多视图训练方法相比,1)我们的适应过程是无监督的,消除了对多视图注释的需求。2)此外,我们的方法可以处理带有未知相机参数的Arbitarary双视图对,从而使该模型适用于不同的相机设置。具体来说,S2DHAND建立在某些立体声约束上,包括两种视图之间的成对跨视图共识和转换的不变性。这两个立体声约束以互补的方式使用来进行伪标记,从而允许可靠的适应性。评估结果表明,在内部和跨数据库设置下,S2DHAND在任意摄像机对上实现了重大的实现,并且胜过具有领先性能的现有适应方法。项目页面:https://github.com/ut-vision/s2dhand。
在发布政策中指定了此版本的手稿的重复使用条款和条件。使用受版权保护的作品需要权利持有人(作者或出版商)的同意。可根据创意共享许可证或发布者的定制许可提供的作品可根据其中包含的条款和条件使用。有关更多信息和条款和条件,请参见编辑网站。此项目是从IrisUniversitàPolitecnicadelle Marche(https://iris.univpm.it)下载的。引用时,请参阅已发布的版本。
I.简介基于v iSion的导航是下一代On-On-On-On-On-On-Os-andActivedEbrisredebremoval任务的关键技术。在这些情况下,指导和控制定律应采用相对的Chaser-Chaser-Toget姿势(即位置和态度)喂食,这可能会从单眼图像中方便地估算,因为这些传感器是简单,光线的,并且消耗了很少的功率。传统上,图像处理算法分为1)手工制作的特征[1,2]和2)基于深度学习的[3-14]。然而,前者受到较低鲁棒性的影响,对典型的空间图像特征(例如,信噪比低,严重和迅速变化的照明条件)和背景。神经网络(NNS)可以通过适当的培训克服此类弱点,但通常会导致高计算负担,这与典型的船上处理能力几乎不兼容。
在发布政策中指定了此版本的手稿的重复使用条款和条件。使用受版权保护的作品需要权利持有人(作者或出版商)的同意。可根据创意共享许可证或发布者的定制许可提供的作品可根据其中包含的条款和条件使用。有关更多信息和条款和条件,请参见编辑网站。此项目是从IrisUniversitàPolitecnicadelle Marche(https://iris.univpm.it)下载的。引用时,请参阅已发布的版本。
