本文考虑的问题涉及小型和微型无人机 (UAV) 的基于视觉的自动驾驶仪的设计。所提出的自动驾驶仪基于基于光流的视觉系统,用于自主定位和场景映射,以及用于飞行控制和制导的非线性控制系统。本文重点介绍使用低分辨率机载摄像头和低成本惯性测量单元 (IMU) 开发用于估计光流、飞机自运动和深度图的实时 3D 视觉算法。我们的实现基于 3 个嵌套卡尔曼滤波器 (3NKF),可实现高效且稳健的估计过程。视觉和控制算法已在四旋翼无人机上实现,并在实时飞行测试中进行了演示。实验结果表明,所提出的基于视觉的自动驾驶仪能够利用从光流中提取的信息使小型旋翼机实现完全自主飞行。
人类和机器都面临着建立视觉和语言信息之间关系的问题。在人类中,这个过程被称为单词学习,发展科学家对此进行了广泛的研究。在机器中,将视觉特征与单词联系起来是计算机视觉研究人员研究的几项任务的关键部分,包括对象分类和图像字幕。在本文中,我们通过从计算机视觉系统的性能预测人类儿童单词学习的时间过程,探索人类和机器发现的这些问题的解决方案之间的关联程度。发展科学家长期以来一直对了解婴幼儿如何学习新单词感兴趣(Bloom,2002;Brown,1973;Golinkoff 等,2000;Quine,1960;Wojcik 等,2022),通常将问题定义为在单词与其对应的对象、事件或属性之间建立指称(Markman,1990;Schwab & Lew-Williams,2016)。虽然不同儿童的单词学习轨迹各不相同,但学习不同类型单词的速度至少存在一定的一致性(Frank 等,2021)。例如,学习英语(以及许多其他语言)的儿童往往比学习连接词(例如“和”或“因为”)更早学习描述身体部位的单词(例如“眼睛”或“鼻子”)。发展科学家一直在寻找这种模式的预测因素。例如,儿童导向言语中更常见的单词往往更早被学习(Swingley & Humphrey,2018)。然而,对这些预测因素的研究仅限于可以测量的数量
人类视觉在很大程度上仍未得到解释。计算机视觉在这方面取得了令人瞩目的进展,但目前仍不清楚人工神经网络在行为和神经层面上与人类物体视觉的近似程度。在这里,我们研究了机器物体视觉是否模仿人类物体视觉的表征层次结构,其实验设计允许测试动物和场景的域内表征,以及反映其现实世界上下文规律的跨域表征,例如在视觉环境中经常同时出现的动物场景对。我们发现,在物体识别中训练的 DCNN 在其后期处理阶段获得的表征可以紧密捕捉人类对动物及其典型场景同时出现的概念判断。同样,DCNN 的表征层次结构与特定领域的腹颞区到领域通用的前顶区中出现的表征转换显示出惊人的相似性。尽管有这些显著的相似性,但底层的信息处理却不同。神经网络学习类似于人类的物体-场景共现高级概念表示的能力取决于图像集中存在的物体-场景共现量,从而凸显了训练历史的根本作用。此外,尽管中/高级 DCNN 层代表了 VTC 中观察到的动物和场景的类别划分,但其信息内容显示出领域特定表示丰富度的降低。总之,通过测试域内和域间选择性,同时操纵上下文规律,我们揭示了人类和人工视觉系统所采用的信息处理策略中未知的相似之处和差异。
摘要 — 无人机的视觉对于无人机相关应用(例如搜索和救援、在移动平台上着陆等)非常重要。在本工作中,我们开发了无人机在移动平台上着陆以及复杂环境中无人机物体检测和跟踪的集成系统。首先,我们提出了一种基于 LoG 的鲁棒深度神经网络进行物体检测和跟踪,与典型的基于深度网络的方法相比,它在对物体尺度和光照的鲁棒性方面具有很大的优势。然后,我们还在原有的卡尔曼滤波器的基础上进行了改进,并设计了一个基于迭代多模型的滤波器来解决运动估计实际情况下未知动态的问题。接下来,我们实现了整个系统,并在两种复杂情况下进行了基于 ROS Gazebo 的测试,以验证我们设计的有效性。最后,我们将提出的检测、跟踪和运动估计策略部署到实际应用中,以实现无人机对支柱的跟踪和避障。事实证明,我们的系统在实际应用中表现出很高的准确性和稳健性。
摘要 — 无人机的视觉对于无人机相关应用(例如搜索和救援、在移动平台上着陆等)非常重要。在本工作中,我们开发了无人机在移动平台上着陆以及复杂环境中无人机物体检测和跟踪的集成系统。首先,我们提出了一种基于 LoG 的鲁棒深度神经网络进行物体检测和跟踪,与典型的基于深度网络的方法相比,它在对物体尺度和光照的鲁棒性方面具有很大的优势。然后,我们还在原有的卡尔曼滤波器的基础上进行了改进,并设计了一个基于迭代多模型的滤波器来解决运动估计实际情况下未知动态的问题。接下来,我们实现了整个系统,并在两种复杂情况下进行了基于 ROS Gazebo 的测试,以验证我们设计的有效性。最后,我们将提出的检测、跟踪和运动估计策略部署到实际应用中,以实现无人机对支柱的跟踪和避障。事实证明,我们的系统在实际应用中表现出很高的准确性和稳健性。
半导体晶圆加工过程中产生的表面缺陷是微纳米加工面临的主要挑战之一。通常使用光学显微镜扫描晶圆,然后由人类专家检查图像。这往往是一个非常缓慢且令人疲惫的过程。由于可能出现的缺陷种类繁多,开发一种可靠的基于机器视觉的系统来正确识别和分类晶圆缺陷类型以取代人工检查是一项具有挑战性的任务。在这项工作中,我们开发了一种机器视觉系统,用于检查半导体晶圆和检测表面缺陷。该系统集成了光学扫描显微镜系统和基于 Mask R-CNN 架构的 AI 算法。该系统使用具有 MEMS、硅光子学和超导器件的晶圆在不同制造阶段(包括表面缺陷)的显微图像数据集进行训练。所实现的精度和检测速度使该系统有望应用于洁净室。
现代工业中机器人使用率的提高带来了可通过机器人执行的新型制造任务。尽管在许多情况下,由于人类的灵活性,这些任务需要人类的参与。工业工作场所应由人类和机器人同时共享,以达到最佳生产率水平。通过 HRC 概念,生产的灵活性和多功能性得到提高 [1][2][3]。人机合作概念适用于许多工业应用,如装配任务、包装、焊接任务和物体操作 [4][5]。在现代合作任务中,机器人和人类在共享工作空间中并肩工作,无需使用钢栅栏或笼子等辅助安全装置。通过这种方式,操作员可以提供人类的灵活性和感知能力,而机器人则提供其
两种基于图像的传感方法被融合以模拟人类视觉,以支持空中检测和避免以及反无人机系统应用。在所提出的传感系统架构中,外围视觉摄像头(带鱼眼镜头)提供大视野,而中央视觉摄像头(带透视镜头)提供特定目标的高分辨率图像。除了两个摄像头和支持算法的互补能力以实现被动检测和分类之外,这对摄像头还形成了一个可以支持距离分辨率的异构立体视觉系统。本文介绍了一种新型外围 - 中央视觉系统的开发和测试,该系统用于检测、定位和分类空中威胁。该系统用于生成各种模拟威胁的数据集,以便通过实验验证威胁定位误差的参数分析。还描述了基于蒙特卡罗模拟的系统性能分析,进一步深入了解了系统参数对威胁定位精度的影响。
初步沟通 基于人工智能的车载自动列车障碍物距离估计 Ivan ĆIRIĆ*、Milan PAVLOVIĆ、Milan BANIĆ、Miloš SIMONOVIĆ、Vlastimir NIKOLIĆ 摘要:本文提出了一种新方法,利用图像平面单应性矩阵来改进对摄像机和成像物体之间距离的估计。该方法利用两个平面(图像平面和铁轨平面)之间的单应性矩阵和一个人工神经网络,可根据收集的实验数据减少估计误差。SMART 多传感器车载障碍物检测系统有 3 个视觉传感器——一个 RGB 摄像机、一个热成像摄像机和一个夜视摄像机,以实现更高的可靠性和稳健性。虽然本文提出的方法适用于每个视觉传感器,但所提出的方法是在热成像摄像机和能见度受损场景下进行测试的。估计距离的验证是根据从摄像机支架到实验中涉及的物体(人)的实际测量距离进行的。距离估计的最大误差为 2%,并且所提出的 AI 系统可以在能见度受损的情况下提供可靠的距离估计。 关键词:人工神经网络;自动列车运行;距离估计;单应性;图像处理;机器视觉 1 简介 通过遵循自动化趋势,可以大大提高铁路货运的质量和成本竞争力,以实现经济高效、灵活和有吸引力的服务。今天,自动化和自主操作已经在公路、航空和海运中变得普遍。现代港口拥有自动导引车 (AGV),可将集装箱从起重机运送到轨道旁、仓库、配送中心,而自动驾驶仪是航空公司和大型货船的标准配置,不需要大量机上人员。自动驾驶汽车和卡车的发展已经进入了一个严肃的阶段。此外,轨道交通自主系统的发展主要出现在公共交通服务领域(无人驾驶地铁线路、轻轨交通 (LRT)、旅客捷运系统和自动引导交通 (AGT))。基本思想是使用一定程度的自动化,将操作任务从驾驶员转移到列车控制系统(例如 ERTMS)。根据国际电工委员会 (IEC) 标准 62290-1,列车自主运行 (ATO) 是高度自动化系统的一部分,减少了驾驶员的监督 [1]。对于完全自主的列车运行,列车操作员的所有活动和职责都需要由多个系统接管,这些系统可以感知环境并俯瞰现场,检测列车路径上的潜在危险物体并做出相应的正确反应 [2-6]。障碍物检测系统作为 ATO 系统的主要部分,障碍物检测系统需要根据货运特定和一般用例(例如 EN62267 和/或自动化领域的相关项目)来监控环境。为了满足严格的铁路标准和法规,障碍物检测系统 (ODS) 应在具有挑战性的环境和恶劣的能见度条件下工作。ODS 是一种具有硬件和软件解决方案的机器视觉系统(图 1),用于提供有关铁路上和/或其附近障碍物的可靠信息,并估算从系统到检测到的障碍物的距离 [7]。该系统需要实时运行,并在不同的光照条件下运行(白天、
在机器视觉和认知神经影像中的快速同时进步提供了一个无与伦比的机会,以评估人工视觉系统的人工模型的当前状态。在这里,我们对85个现代深神经网络模型进行了大规模的基准分析(例如剪辑,Barlowtwins,Mask-Rcnn)以强大的统计能力来表征 - 插座和训练任务的差异如何有助于预测人类视觉系统的16个不同区域的人类fMRI活动。我们发现:一个,甚至是鲜明的建筑差异(例如在变压器和MLP混合物中缺乏卷积)在与大脑数据的紧密拟合中几乎没有影响。第二,任务的差异具有明显的效果 - 分类和自我监督模型表现出相对较强的大脑预测性;第三,该功能重新恢复会导致大脑预测性的实质性改善,而不会过度拟合 - 产生模型对脑回归权重,这些重量在相同水平的对大脑响应水平的新图像以上的预测性水平上概括。从广义上讲,这项工作为现代深度神经网络模型的特征空间与人类视觉系统固有的代表性结构之间的特征空间之间的紧密对应呈现了一条陆地。