摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -
摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -
摘要:视觉识别是当前计算机视觉、模式识别乃至人工智能领域最重要和最活跃的研究领域之一。它具有重要的基础意义和强烈的工业需求,特别是现代深度神经网络(DNN)和一些受大脑启发的方法,在大量训练数据和新的强大计算资源的帮助下,大大提高了许多具体任务的识别性能。虽然识别准确率通常是新进展的首要关注点,但效率实际上相当重要,有时对于学术研究和工业应用都至关重要。此外,整个社区也非常需要对效率带来的机遇和挑战有深刻的见解。虽然已经从各个角度对效率问题进行了一般性调查,但据我们所知,几乎没有任何调查系统地关注视觉识别,因此不清楚哪些进展适用于它以及还应该关注什么。在本综述中,我们回顾了最近的进展,并提出了提高 DNN 相关和脑启发式视觉识别方法效率的新方向,包括高效的网络压缩和动态脑启发式网络。我们不仅从模型的角度进行研究,还从数据的角度进行研究(现有综述中没有这种情况),并重点关注四种典型数据类型(图像、视频、点和事件)。本综述试图通过全面的综述提供系统的总结,以作为有价值的参考,并激励从事视觉识别问题的研究人员和从业者。
本研究提出了计算机视觉技术的新应用,用于识别ALS拥挤的加速器隧道中的磁铁和磁铁组件。利用SAM2/YOLO跟踪,我们培训了一个系统,结合了CAD渲染和来自Advanced Light Source升级(ALSU)项目的组件的真实照片。我们的方法涉及创建一些手动标记的图像的综合数据集,这些图像源自CAD模型和现场手动标记的照片。我们在简化维护程序,增强安全协议并改善了复杂加速器环境中自动化视觉检查和库存管理方面的总体操作中显示了潜在的应用。
人工智能将计算机视觉识别引入教学课堂,计算机视觉识别技术为智能教学教室奠定了坚实的基础。通过课堂摄像机视频流到课堂学生信息数据收集,语音,面部,生理信号数据识别分析分析处理处理,以提取和定义学生行为的特征,自动分类行为,然后记录和展示学生的行为,从而有效地帮助教师掌握学生的学习状态和情感,从而促进教学质量的重要性。同时讨论了在教学课堂和相应的解决方案中有效应用计算机视觉的挑战和问题。
使用工业计算机视觉识别产品缺陷。该参考体系结构演示了如何使用Amazon Lookout for Vision,Amazon S3和AWS Lambda来检测X射线图像中的铸造金属缺陷,损坏和不规则性,以进行制造中的优质检查。
摘要 - 本文重点介绍了基于脑电图的视觉识别的主题适应。它旨在通过从源主题的丰富数据中传输知识来构建针对脑电图样本受到限制的目标主题定制的视觉刺激识别系统。现有的方法考虑了在培训期间可以访问源主题样本的情况。但是,由于隐私问题,访问诸如EEG信号之类的个人生物学数据通常是不可行的,并且有问题。在本文中,我们介绍了一种新颖而实用的问题设置,即无源的受试者适应,其中源主题数据不可用,并且仅提供预先训练的模型参数以进行对象适应。为了解决这一具有挑战性的问题,我们提出了基于分类的数据生成,以使用分类响应来模拟来自源对象的脑电图样本。使用生成的样本和目标主题数据,我们执行主题独立的特征学习来利用跨不同主题共享的常识。值得注意的是,我们的框架是可以推广的,并且可以采用任何独立于主题的学习方法。在EEG-IMAGENET40基准的实验中,我们的模型都会带来一致的改进,而不论其无关学习的选择如何。此外,我们的方法显示出有希望的性能,即使在不依赖源数据的情况下,在5-Shot设置下将TOP-1测试精度记录为74.6%。我们的代码可以在https://github.com/deepbci/deep-bci上找到。索引术语 - 脑计算机界面,脑电图,基于脑电图的视觉识别,无源的主题适应,深度学习
摘要 - 感知和识别对象的能力对于与外部环境的互动至关重要。研究它们及其与大脑活动变化的关系由于可能应用到直观的脑机界面(BMI)而增加。另外,已经研究了使数据足够可区分以进行分类的不同视觉刺激时的独特模式。但是,报告的分类精度仍然较低或用于获取脑信号的技术对于在实际环境中使用不切实际。在这项研究中,我们的目标是根据提供的视觉刺激来解码脑电图(EEG)信号。主题呈现了72张属于6种不同语义类别的照片。使用脑电图信号根据视觉刺激进行了6个类别和72个示例。为了达到高分类的准确性,我们提出了一个注意力驱动的卷积神经网络,并将我们的结果与用于对EEG信号进行分类的常规方法进行了比较。我们报告的6级和72级的精度分别为50.37±6.56%和26.75±10.38%。这些结果在统计学上优于其他常规方法。这是可能的,因为使用人类视觉途径应用了注意网络。我们的发现表明,当受试者具有不同语义类别的视觉刺激以及具有高分类精度的示例级别时,可以区分脑电图信号。这表明它可以在现实世界中将其应用于现实的BMI。
视觉场景是自然组织的,在层次结构中,粗糙的语义递归由几个细节组成。探索这种视觉层次结构对于认识视觉元素的复杂关系至关重要,从而导致了全面的场景理解。在本文中,我们提出了一个视觉层次结构映射器(HI-MAPPER),这是一种增强对预训练的深神经网络(DNNS)结构化理解的新方法。hi-mapper通过1)通过概率密度的封装来调查视觉场景的层次结构组织; 2)学习双曲线空间中的分层关系,并具有新颖的分层对比损失。预定义的层次树通过层次结构分解和编码过程递归地与预训练的DNN的视觉特征相互作用,从而有效地识别了视觉层次结构并增强了对整个场景的识别。广泛的实验表明,Hi-Mapper显着增强了DNN的表示能力,从而改善了各种任务的性能,包括图像分类和密集的预测任务。代码可在https://github.com/kwonjunn01/hi-mapper上找到。