自主驾驶代表了创新的前沿,具有深刻地重塑运输和流动性的潜力。具有彻底改变运输系统,增强安全性和重新构想城市景观的能力,其重要性不能被夸大。同时,随着全球人口增长和城市化的加速,对高效,可持续和聪明的流动解决方案的需求变得越来越紧迫。自主驾驶为这些挑战提供了令人信服的解决方案,利用了诸如人工智能,传感器融合和连接性等尖端技术,使车辆能够自主行驶,智能地进行沟通并与环境无缝互动。在自动驾驶上的物联网上的ACM交易的本期特刊是一个信标,阐明了该领域的跨学科本质和意义,同时对其广泛的含义提供了深入的见解。涵盖了从计算平台和模拟器的体系结构到感知算法和基础设施集成的多学科主题,该问题采用了面向应用程序的方法,可满足各种各样的研究人员,工程师,策略制造商和行业专业人员。
a 代尔夫特理工大学生物力学工程系,代尔夫特,荷兰;b 苏黎世联邦理工学院,新加坡未来弹性系统 - ETH 中心,新加坡;c 南安普顿大学工程与环境学院,交通研究组,南安普顿,英国;d 法国交通、发展与网络科学技术研究所,人体工程学与认知科学实验室,法国;e 代尔夫特理工大学交通与规划系,代尔夫特,荷兰;f 格罗宁根大学行为与社会科学学院,心理学系,格罗宁根,荷兰;g 特温特大学交通研究中心,特温特,荷兰;h 荷兰应用科学组织,荷兰索斯特贝格,荷兰应用科学组织人为因素研究所;i 慕尼黑工业大学机械工程系,人体工程学研究所,德国;j 瑞典国家道路与交通研究所,VTI,瑞典;k 利兹大学交通研究所,英国l 英国沃金厄姆交通研究实验室人为因素与模拟组;m 比利时布鲁塞尔 ITS 欧洲 ERTICO;n 荷兰海牙道路安全研究所 SWOV
a 代尔夫特理工大学生物力学工程系,代尔夫特,荷兰;b 苏黎世联邦理工学院,新加坡未来弹性系统 - ETH 中心,新加坡;c 南安普顿大学工程与环境学院,交通研究组,南安普顿,英国;d 法国交通、发展与网络科学技术研究所,人体工程学与认知科学实验室,法国;e 代尔夫特理工大学交通与规划系,代尔夫特,荷兰;f 格罗宁根大学行为与社会科学学院,心理学系,格罗宁根,荷兰;g 特温特大学交通研究中心,特温特,荷兰;h 荷兰应用科学组织,荷兰索斯特贝格,TNO 人为因素研究所;i 慕尼黑工业大学机械工程系,人体工程学研究所,德国慕尼黑;j 瑞典国家道路与交通研究所,VTI,瑞典;k 利兹大学交通研究所,英国利兹; l 英国沃金厄姆交通研究实验室人为因素与模拟组;m 比利时布鲁塞尔 ITS 欧洲 ERTICO;n 荷兰海牙道路安全研究所 SWOV
重复使用 存放在 White Rose Research Online 中的项目受版权保护,保留所有权利,除非另有说明。它们可以下载和/或打印用于个人学习,或国家版权法允许的其他行为。出版商或其他权利持有人可能允许进一步复制和重复使用全文版本。这由 White Rose Research Online 记录中该项目的许可信息指示。
环境,建立内部世界模型表示,做出决策并采取措施[9,50]。,尽管数十年来在学术界和工业上做出了巨大的努力,但他们的部署仍限于某些杂物或场景,并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常,感知模型会面临概括到不同环境的挑战,随着地理位置,传感器配置,天气条件,开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2,16,54]。是由人类学习如何感知和刺激世界的动机[27,28,49],我们主张采用驾驶视频作为通用界面,将其推广到具有动态期货的各种环境。基于此,首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识(图1)。通过预测未来,视频预测因子本质上了解了自主驾驶的两个重要方面:世界如何运作以及如何在野外安全地操纵。最近,社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域,视频背景大多是静态的,机器人的运动很慢,并且视频的分解很低。相比之下,对于驾驶场景 - iOS,它与室外环境高度斗争,代理人涵盖了更大的动作,以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是,在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并未像经典的机器人任务(例如,操作)那样实现概括能力,仅限于有限的场景,例如流量密度低[4]的高速公路[4]和小型数据集[15,23,33,33,33,45,45,47],或者在环境方面进行不同的条件,以使38个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异[3](33,45,47),以下情况下的情况[3](33,33,45,47),这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机,我们旨在构建一个自动驾驶的视频预测模型,能够概括为新的条件和环境。为此,我们必须回答以下问题:(1)可以以可行且可扩展的方式获得哪些数据?(2)我们如何制定一个预测模型来捕获动态场景的复杂演化?(3)我们如何将(基础)模型应用于下游任务?
随着人工智能技术的快速发展,多模式学习已成为各种应用程序中数据处理和分析的强大范式,包括自主机器人和车辆[1]和大型语言模型[2]。通过整合来自各种模式的数据,多模式学习增强了AI系统的鲁棒性和适应性,从而提高了性能,并具有更大的能力,可以有效地解决现实世界中的Challenges。多模式学习的一种显着应用是在官方驾驶中,它使自动驾驶汽车(AVS)能够使用多种数据源(例如摄像头,LIDAR,雷达,雷达和超声传感器)来解释和响应其环境。这种不同数据类型的集成使机器的感知和决策更加准确,增强了车辆检测和理解对象,预测其运动并安全地驾驶复杂驾驶场景的能力。使用不同方式中包含的信息,AV可以实现更大的鲁棒性和可靠性,降低事故的风险,并改善各种和动态驾驶条件下的整体性能。AV传感器会生成大量数据[3],根据传感器配置,每秒可能达到40千兆位(GBPS)。必须实时处理和分析这些数据,这需要大量能量,进而减少车辆的范围[4]。因此,无论是在板载处理还是使用未来的低延迟通信[5]来减少数据量,无论是在机载处理还是计算偏移到云服务上。因此,有效的压缩
摘要 - 为了克服自动飞行中无人驾驶汽车(无人机)避免障碍物的挑战,本文提出了双重体验注意力卷积软卷积 - 批评者(DAC-SAC)算法。该算法与卷积网络集成了双重体验缓冲池,自我注意力的机制和软性批判性算法。由于缺乏成功的培训数据,双重体验缓冲池用于解决无效的无人机培训问题。为了克服处理图像数据中原始软演员 - 批评(SAC)算法的缺点,应用了卷积神经网络(CNN)来重建参与者和评论家网络,从而可以更好地提取图像特征提取和分类。此外,通过向网络添加卷积自我发项层来采用一种自我注意的机制。此修改可以根据不同输入图像特征对注意力重量进行动态调整,从而有效解决与焦点相关的挑战。进行了两个模拟实验,并且在处理未知环境时,DAC-SAC算法在已知环境中达到99.5%的成功率,成功率为84.8%。这些结果证实,即使将深度图像作为输入,提出的算法也可以避免无人机的自主障碍。
摘要。寻求完全自动驾驶汽车(AV),能够以人类的理解和响应能力来浏览复杂的现实情况。在本文中,我们介绍了海豚,这是一种新颖的视觉语言模型,以吸收人类的能力,成为一名自治驾驶助手。海豚擅长处理包括视频(或图像)数据,文本指令和历史控制信号的多模式输入,以生成与提供指令相对应的知情输出。在开源的视觉模型(OpenFlamingo)构建基础上,我们首先通过一般领域中创新的基础思维链(GCOT)过程来增强海豚的推理能力。然后,我们通过构建特定的指令数据并进行指导调整来将海豚定制到驾驶领域。通过BDD-X数据集的利用,我们将四个不同的AV任务设计为海豚,以促进对复杂驾驶场景的整体理解。因此,海豚的独特特征被描述为两个维度:(1)能够对复杂且长尾巴的开放世界驾驶场景和解决AV任务的范围进行全面理解,以及(2)通过反置式学习和错误恢复,包括无梯度的即时概述。该匿名演示可在https://vlm-driver.github.io/上获得。
神经辐射场(NERFS)在自动驾驶(AD)社区中广受欢迎。最近的方法显示了NERFS进行闭环模拟的潜力,广告系统的启动测试以及作为先进的培训数据增强技术的潜力。但是,现有的方法通常需要较长的训练时间,密集的语义范围或缺乏普遍性。这反过来妨碍了NERF的应用在大规模上应用于AD。在本文中,我们提出了一种针对动态AD数据量身定制的可靠的新型视图合成方法。我们的方法具有简单的网络设计,凸轮和激光镜头的广泛传感器建模 - 包括滚动快门,梁发散和射线掉落 - 并且适用于开箱即用的多个数据集。我们在五个受欢迎的广告数据集上验证其性能,从而实现最新的性能。为了鼓励进一步开发,我们公开发布了神经源源代码。