多模态情绪识别一直是情感计算的热门话题,因为与单一模态相比,它能显著提高识别性能。其中,脑电图 (EEG) 和眼动信号的组合由于它们的互补性和客观性而成为最有吸引力的实践之一。然而,脑电图信号采集的高成本和不便性严重阻碍了多模态情绪识别在实际场景中的普及,而眼动信号则更容易获取。为了在不影响性能的情况下提高情绪解码的可行性和泛化能力,我们提出了一个基于生成对抗网络的框架。在我们的模型中,单一模态的眼动作为输入,它能够将信息映射到多模态特征上。在不同情绪类别的 SEED 系列数据集上的实验结果表明,与使用多模态输入的模型相比,使用单一眼动模态生成的多模态特征的模型保持了具有竞争力的准确率,并且大大优于那些单模态情绪分类器。这说明该模型有可能在不牺牲性能的情况下减少对多模态的依赖,从而使情绪识别更具适用性和实用性。
静态馈送场景的最新进展已显示出高质量的新型视图合成中的显着进步。但是,这些模型通常会在各种环境中的普遍性中挣扎,并且无法有效处理动态内容。我们提出了BTIMER(Bullettimer的缩写),这是实时重建和动态场景的新型视图综合的第一个运动感知馈送模型。我们的方法通过从所有上下文框架中汇总信息,以给定目标(“子弹”时间戳)在给定目标的3D高斯分裂表示中重建整个场景。这样的公式允许BTIMER通过掌握静态和动态场景数据集来获得可扩展性和概括性。给定一个随意的单眼视频,BTimer在150ms内重建了子弹时间1场景,同时在静态和动态场景数据集上达到最先进的性能,
摘要人类机器人合作(HRC)在先进的生产系统中越来越重要,例如在行业和农业中使用的系统。这种类型的协作可以通过减少人类的身体压力来促进生产率的提高,从而导致伤害减少并改善士气。HRC的一个关键方面是机器人安全遵循特定的人类操作员的能力。为了应对这一挑战,提出了一种新的方法,该方法采用单眼视力和超宽带(UWB)收发器来确定人类目标相对于机器人的相对位置。UWB收发器能够用UWB收发器跟踪人类,但具有显着的角度误差。为了减少此错误,使用深度学习对象检测的单眼摄像机来检测人类。使用基于直方图的滤波器结合了两个传感器的输出,可以通过传感器融合来减少角度误差。此过滤器项目并将两个源的测量值与2D网格相交。通过结合UWB和单眼视觉,与单独的UWB定位相比,角度误差的降低了66.67%。这种方法表明,以0.21 m/s的平均速度跟踪人行走时,平均处理时间为0.0183,平均定位误差为0.14米。这种新颖的算法有望实现有效和安全的人类机器人合作,为机器人技术提供了宝贵的贡献。
本文旨在设计具有更好概括能力的单眼深度估计模式。为此,我们进行了定量分析,并发现了两个重要的见解。首先,在长尾分类问题中发现的模拟相关现象也存在于单眼深度估计中,这表明训练数据中深度分布的不平衡分布可能是导致泛化能力有限的原因。第二,深度值的不平衡和长尾分布范围超出了数据集量表,并且在每个单独的图像中也表现出来,进一步表达了单眼深度估计的挑战。通过上述发现,我们提出了距离感知的多专家(DME)深度估计模型。与先前的方法不同地处理不同深度范围的方法不同,DME采用了分歧和诱使哲学,每个专家都负责对特定深度范围内的区域进行深度估计。因此,每个专家看到的深度分布更加统一,并且可以更容易预测。一个像素级路由模块的进一步设计和学会了,以将所有专家的预测缝合到最终的深度图中。实验表明,DME在NYU-DEPTH V2和KITTI上都达到了最先进的性能,并且还可以在看不见的数据集上提供有利的零拍概括能力。
摘要 - 随着自动驾驶和机器人导航的快速进步,对能够估计度量(绝对)深度的终身学习模型的需求不断增长。终身学习方法可能在模型培训,数据存储和收集方面可以节省大量成本。但是,RGB图像和深度图的质量是传感器的,现实世界中的深度图具有特定的特定特征,从而导致深度范围的变化。这些挑战将现有方法限制为具有较小的域差距和相对深度图估计的终身学习。为了促进终生的度量深度学习,我们确定了需要注意的三个至关重要的技术挑战:i)开发一个能够通过尺度感知的深度学习来解决深度尺度变化的模型,ii)设计有效的学习策略来处理明显的域间隙,iii III)为在实践应用中创建一个自动化的解决方案。基于上述考虑因素,在本文中,我们提出了一个轻巧的多头框架,有效地解决了深度尺度的不平衡,ii)一种不确定性的意识到的终身学习解决方案,可熟练处理重要的域域,iii)一种在线域特异性预测方法,以实现实时的预测方法。通过广泛的数值研究,我们表明该方法可以实现良好的效率,稳定性和可塑性,从而使基准测试幅度约为15%。该代码可在https://github.com/ freeformrobotics/lifelong-monodepth上找到。
广泛应用于自主驾驶中的基于深度学习的单眼深度估计(MDE)很容易受到对抗性攻击的影响。先前针对MDE模型的物理攻击依赖于2D广泛的补丁,因此它们仅影响MDE地图中的一个小型局部区域,但在各种观点下都失败了。为了解决这些限制,我们提出了3D深度傻瓜(3d 2傻瓜),这是对MDE模型的第一个基于3D纹理的对抗性攻击。3d 2傻瓜被专门优化,以生成3D对抗纹理对型号的车辆类型,并在恶劣天气条件(例如雨水和雾)中具有改善的鲁棒性。实验结果验证了我们3d 2傻瓜在各种情况下的出色性能,包括车辆,MDE Mod-els,天气状况和观点。现实世界中使用打印3D纹理的实验实验进一步表明,我们的3d 2傻瓜可能会导致超过10米的MDE误差。该代码可在https://github.com/gandolfczjh/3d2fool上找到。
3D面部绩效捕获是几种应用中的关键组成部分,包括AR或VR中的身临其境的触觉以及娱乐行业的视觉效果。生产高质量的恢复通常需要大量的财务,时间和资源投资。这不仅涉及昂贵的3D捕获设备[Beeler等。2010; Debevec等。2000],基于精确的标记跟踪系统[Bennett and Carter 2014]或头部安装式分配[Brito and Mitchell 2019],但也从演员那里进行了大量的捕捉时间。无标记的捕获设置是简化该管道的有希望的解决方案,但是高质量的结果仍然依赖于复杂的钻机[Helman等。2020]或大型个性化培训数据集[Laine等。2017; Wu等。2018]。在频谱的另一端是3D重建方法,可以在负担得起的消费者等级硬件中使用图像或视频操作。主要思想是使用3D面的统计模型 - 所谓的3D形态模型(3DMMS),它们使用基于优化的[Andrus等人都拟合到RGB图像或2D地标。2020; Zielonka等。2022]或基于学习的方法[Danecek等。2022;冯等人。2021; Retsinas等。2024]。统计模型的先验知识有助于克服问题的不良性质,而基于学习的技术的发展使姿势,照明和闭塞的前所未有的鲁棒性。但是,这是以较低的几何质量为代价的,仅提供了形状和表达的粗略近似,而该形状和表达却差不多。
摘要 在自然环境中,感觉处理和运动输出紧密相关,这反映在许多大脑区域同时包含感觉和运动信号的事实中。然而,标准的还原论范式将感觉决策与其自然的运动后果分离开来,而头部固定会阻止自我运动的自然感觉后果。特别是,在环境中的运动提供了许多深度线索,这些线索超出了立体视觉的范围,但人们对这些线索知之甚少。为了研究自然任务中视觉处理和运动输出的整合,我们研究了自由移动小鼠的距离估计。我们发现小鼠使用视觉准确地跳过可变间隙,从而将视觉计算直接耦合到其相应的行为运动输出。单眼眼睑缝合不影响间隙跳跃成功,因此小鼠可以使用不依赖于双眼视差和立体视觉的线索。在单眼条件下,小鼠改变了头部位置并进行了更多的垂直头部运动,这与从使用立体视觉转向其他单眼线索(如运动或位置视差)的转变一致。最后,当光纤分别位于双眼或单眼 V1 区时,对初级视觉皮层的光遗传抑制会损害双眼和单眼条件下的任务表现。总之,这些结果表明小鼠可以使用单眼线索,依靠视觉皮层来准确判断距离。此外,这种行为范式为研究神经回路如何将感觉信息转化为行为运动输出奠定了基础。
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
摘要:移动自主机器人需要准确的地图来实时导航和做出明智的决定。猛击(同时定位和映射)技术允许机器人在移动时构建地图。但是,在复杂或动态的环境中,SLAM可能具有挑战性。本研究提出了一个名为Scramble的移动自主机器人,该机器人根据两个传感器的数据融合使用SLAM:Rplidar A1M8 LIDAR和RGB摄像机。如何使用数据融合来提高映射,轨迹计划和移动自动机器人障碍物检测的准确性?在本文中,我们表明,视觉和深度数据的融合显着提高了映射,轨迹计划和移动自主机器人的障碍物检测的准确性。这项研究通过引入基于数据融合的SLAM方法来帮助自主机器人导航的发展。移动自主机器人用于各种应用程序,包括包装交付,清洁和检查。开发更健壮,更准确的SLAM算法对于在具有挑战性的环境中使用这些机器人至关重要。