摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -
视觉场景是自然组织的,在层次结构中,粗糙的语义递归由几个细节组成。探索这种视觉层次结构对于认识视觉元素的复杂关系至关重要,从而导致了全面的场景理解。在本文中,我们提出了一个视觉层次结构映射器(HI-MAPPER),这是一种增强对预训练的深神经网络(DNNS)结构化理解的新方法。hi-mapper通过1)通过概率密度的封装来调查视觉场景的层次结构组织; 2)学习双曲线空间中的分层关系,并具有新颖的分层对比损失。预定义的层次树通过层次结构分解和编码过程递归地与预训练的DNN的视觉特征相互作用,从而有效地识别了视觉层次结构并增强了对整个场景的识别。广泛的实验表明,Hi-Mapper显着增强了DNN的表示能力,从而改善了各种任务的性能,包括图像分类和密集的预测任务。代码可在https://github.com/kwonjunn01/hi-mapper上找到。
本研究提出了计算机视觉技术的新应用,用于识别ALS拥挤的加速器隧道中的磁铁和磁铁组件。利用SAM2/YOLO跟踪,我们培训了一个系统,结合了CAD渲染和来自Advanced Light Source升级(ALSU)项目的组件的真实照片。我们的方法涉及创建一些手动标记的图像的综合数据集,这些图像源自CAD模型和现场手动标记的照片。我们在简化维护程序,增强安全协议并改善了复杂加速器环境中自动化视觉检查和库存管理方面的总体操作中显示了潜在的应用。
摘要 - 可润滑的天线(RA)是一种具有巨大潜力来利用额外空间自由度(DOF)的新兴技术,它通过灵活地改变每个天线的三维(3D)方向/无视。在此演示中,我们开发了具有RA支持的无线通信系统的原型,该原型具有视觉识别模块,以评估RA在实用环境中提供的绩效增长。尤其是通过对数字伺服电机,定向天线和微控制器进行机械驱动的RA的开发,该电动机能够动态调整RA方向。此外,RA的方向调整是由目标识别模块提供的目标的方向指导的,从而显着提高了系统响应速度和定向精度。实验结果表明,与常规的基于固定天线的系统相比,基于RA的通信系统在通信覆盖效果方面取得了出色的改进。索引术语 - 可润滑的天线,视觉识别,3d orimitation。
使用工业计算机视觉识别产品缺陷。该参考体系结构演示了如何使用Amazon Lookout for Vision,Amazon S3和AWS Lambda来检测X射线图像中的铸造金属缺陷,损坏和不规则性,以进行制造中的优质检查。
摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -
长尾的多标签视觉识别(LTML)任务是由于标签共发生和不平衡的数据分布,这是一项极具挑战性的任务。在这项工作中,我们为LTML提出了一个统一的框架,即促使特定于班级的嵌入损失(LMPT)进行调整,从而通过结合文本和im im Im operational数据来捕获语义功能相互作用,并在头部和尾部同步改进型号。具体来说,LMPT通过班级感知的软边距和重新投资介绍了嵌入式损失函数,以学习特定的班级上下文,并带有文本描述(字幕)的好处,这可以帮助建立类之间的语义关系,尤其是在头和尾部之间。fur-hoverore考虑到类失样的类别,分配平衡的损失被用作分类损失函数,以进一步提高尾部类别的性能而不会损害头部类别。在VOC-LT和可可-LT数据集上进行了广泛的实验,这表明我们的方法显着超过了先前的最新方法,而LTML中的零拍夹。我们的代码在https://github.com/richard-peng-xia/lmpt上完全公开。
人工智能将计算机视觉识别引入教学课堂,计算机视觉识别技术为智能教学教室奠定了坚实的基础。通过课堂摄像机视频流到课堂学生信息数据收集,语音,面部,生理信号数据识别分析分析处理处理,以提取和定义学生行为的特征,自动分类行为,然后记录和展示学生的行为,从而有效地帮助教师掌握学生的学习状态和情感,从而促进教学质量的重要性。同时讨论了在教学课堂和相应的解决方案中有效应用计算机视觉的挑战和问题。
当我们注视一个物体时,视觉信息会持续地被视网膜接收。一些研究观察到了这种刺激时间内感知敏感度的行为波动,这些波动与大脑波动有关。然而,特定大脑区域是否在刺激时间中表现出波动(即刺激在不同时间点以有节奏的方式被或多或少地处理)尚未得到研究。在这里,我们在随机时刻揭示了面部图像的随机区域,并使用 MEG 记录了男性和女性人类参与者在执行两项识别任务时的大脑活动。这使我们能够量化来自刺激的每个视觉信息快照在时间和大脑中的处理方式。刺激时间的波动(有节奏的采样)主要出现在早期视觉区域,频率为 theta、alpha 和低 beta。我们还发现它们对大脑活动的贡献大于之前研究的节律处理(处理单个视觉信息快照时的波动)。非节律性采样在视觉皮层的后期潜伏期也可见,要么是早期刺激时间点的瞬时处理,要么是整个刺激的持续处理。我们的结果表明,连续的大脑振荡周期会处理连续时刻传入的刺激信息。总之,这些结果促进了我们对与视觉处理相关的振荡神经动力学的理解,并表明在研究视觉识别时考虑刺激的时间维度的重要性。