神经辐射场(NERFS)在自动驾驶(AD)社区中广受欢迎。最近的方法显示了NERFS进行闭环模拟的潜力,广告系统的启动测试以及作为先进的培训数据增强技术的潜力。但是,现有的方法通常需要较长的训练时间,密集的语义范围或缺乏普遍性。这反过来妨碍了NERF的应用在大规模上应用于AD。在本文中,我们提出了一种针对动态AD数据量身定制的可靠的新型视图合成方法。我们的方法具有简单的网络设计,凸轮和激光镜头的广泛传感器建模 - 包括滚动快门,梁发散和射线掉落 - 并且适用于开箱即用的多个数据集。我们在五个受欢迎的广告数据集上验证其性能,从而实现最新的性能。为了鼓励进一步开发,我们公开发布了神经源源代码。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
来自图像的深度估计是具有广泛应用的计算机视觉中的一个长期问题。对于基于视觉的自动驾驶系统,感知深度是理解道路对象和建模3D环境图的相关性的不可或缺的模块。由于深度神经网络用于求解各种视觉概率,因此基于CNN的方法[2-5,13,39 - 42,44,44,46,48,52]主导了各种深度基准。根据输入格式,它们主要将其分为多视图深度估计[3,13,23,26,44,45,51,53]和单视深度估计[14 - 16,19,37,38]。多视图方法估计深度的假设,即给定的深度,相机校准和摄像头姿势,这些像素应相似。他们依靠表现几何形状来三角形高质量深度。但是,多视图方法的准确性和鲁棒性在很大程度上依赖于相机的几何配置以及视图之间匹配的对应关系。首先,需要足够翻译相机以进行三角度。在自主驾驶的情况下,汽车可能会停在交通信号灯处或不移动而不移动,这会导致故障三角剖分。此外,多视图方法遭受动态对象和无动电区域的影响,它们在自动驱动方案中无处不在。另一个问题是对移动车辆的施加优化。在存在的大满贯方法中不可避免地噪声,更不用说具有挑战性和可取的情况了。具体来说,我们提出了一个两个分支网络,即例如,一辆机器人或自动驾驶汽车可以在不重新校准的情况下部署多年,原因是嘈杂的姿势。相比之下,作为单视图方法[14 - 16,19,37,38]依赖于对场景的语义理解和透视投影提示,它们对无纹理区域,动态对象,而不是依赖相机姿势更为易用。但是,由于规模歧义,其性能仍然远非多视图方法。在这里,我们倾向于考虑是否可以很好地结合两种方法的好处,以实现自主驾驶场景中的稳健和准确的单眼视频深度估计。尽管已经在先前的工作中探索了基于融合的系统[1,9],但他们都假定了理想的相机姿势。结果是融合系统的性能甚至比单视深度估计的噪声姿势还差。为了解决这个问题,我们提出了一个新型的自适应融合网络,以利用多视图和单视图方法的优势,并减轻其缺点,以保持高度的精度,并在噪声姿势下提高系统的影响力。一个靶向单眼深度提示,而另一个则利用多视图几何形状。两个分支都预测了深度图和置信图。补充语义提示和边缘细节在多视图分支的成本汇总中丢失了
环境,建立内部世界模型表示,做出决策并采取措施[9,50]。,尽管数十年来在学术界和工业上做出了巨大的努力,但他们的部署仍限于某些杂物或场景,并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常,感知模型会面临概括到不同环境的挑战,随着地理位置,传感器配置,天气条件,开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2,16,54]。是由人类学习如何感知和刺激世界的动机[27,28,49],我们主张采用驾驶视频作为通用界面,将其推广到具有动态期货的各种环境。基于此,首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识(图1)。通过预测未来,视频预测因子本质上了解了自主驾驶的两个重要方面:世界如何运作以及如何在野外安全地操纵。最近,社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域,视频背景大多是静态的,机器人的运动很慢,并且视频的分解很低。相比之下,对于驾驶场景 - iOS,它与室外环境高度斗争,代理人涵盖了更大的动作,以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是,在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并未像经典的机器人任务(例如,操作)那样实现概括能力,仅限于有限的场景,例如流量密度低[4]的高速公路[4]和小型数据集[15,23,33,33,33,45,45,47],或者在环境方面进行不同的条件,以使38个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异[3](33,45,47),以下情况下的情况[3](33,33,45,47),这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机,我们旨在构建一个自动驾驶的视频预测模型,能够概括为新的条件和环境。为此,我们必须回答以下问题:(1)可以以可行且可扩展的方式获得哪些数据?(2)我们如何制定一个预测模型来捕获动态场景的复杂演化?(3)我们如何将(基础)模型应用于下游任务?
摘要 - 基于端到端视力的模仿学习已直接从专家演示中学习控制命令来证明自主驾驶的有希望的结果。然而,传统方法依赖于基于回归的模型,这些模型提供了精确的控制,但缺乏一致性估计或基于分类的模型,这些模型提供了置信度得分,但由于分离而降低了精度。此限制使量化预测行动的可靠性并在必要时应用更正是一项挑战。在这项工作中,我们引入了双头神经网络体系结构,该架构既集成回归和分类负责人,以提高模仿学习中的决策可靠性。回归负责人预测了连续的驾驶动作,而分类头则估计了置信度,从而实现了一种调整机制,该校正机制可以调整低信心情景中的动作,从而增强了驾驶稳定性。我们在Carla模拟器内的闭环环境中评估了我们的方法,证明了其检测不确定的动作,估计信心并应用实时校正的能力。实验结果表明,我们的方法可降低车道偏差,并提高了传统精度高达50%,表现优于常规回归模型。这些发现突出了分类指导置信度估计的潜力,以增强基于视觉的模仿学习对自主驾驶的鲁棒性。源代码可在https:// github上找到。com/elahedlv/profester_aware_il。
自主驾驶代表了创新的前沿,具有深刻地重塑运输和流动性的潜力。具有彻底改变运输系统,增强安全性和重新构想城市景观的能力,其重要性不能被夸大。同时,随着全球人口增长和城市化的加速,对高效,可持续和聪明的流动解决方案的需求变得越来越紧迫。自主驾驶为这些挑战提供了令人信服的解决方案,利用了诸如人工智能,传感器融合和连接性等尖端技术,使车辆能够自主行驶,智能地进行沟通并与环境无缝互动。在自动驾驶上的物联网上的ACM交易的本期特刊是一个信标,阐明了该领域的跨学科本质和意义,同时对其广泛的含义提供了深入的见解。涵盖了从计算平台和模拟器的体系结构到感知算法和基础设施集成的多学科主题,该问题采用了面向应用程序的方法,可满足各种各样的研究人员,工程师,策略制造商和行业专业人员。
摘要 - 深度学习的快速进步加剧了对自动驾驶算法使用的全面数据的需求。高质量数据集对于开发有效数据驱动的自动驾驶解决方案至关重要。下一代自动驾驶数据集必须是多模式的,结合了来自高级传感器的数据,这些数据具有广泛的数据覆盖率,详细的注释和不同的场景表示形式。为了满足这一需求,我们提出了OmniHd-Scenes,这是一个大规模的多模式数据集,可提供全面的全向高清数据。OMNIHD-SCENES数据集结合了来自128束梁雷达,六个摄像机和六个4D成像雷达系统的数据,以实现完整的环境感知。数据集包含1501个夹子,每个夹子长约30秒,总计超过450K同步帧和超过585万个同步传感器数据点。我们还提出了一个新颖的4D注释管道。迄今为止,我们已经注释了200个剪辑,其中有超过514K精确的3D边界框。这些剪辑还包括静态场景元素的语义分割注释。此外,我们还引入了一条新型的自动化管道,以生成密集的占用地面真理,从而有效利用了非钥匙框架的信息。与拟议的数据集一起,我们为3D检测和语义占用预测建立了全面的评估指标,基线模型和基准。这些基准测试利用环绕摄像机和4D成像雷达来探索用于自动驾驶应用的具有成本效益的传感器解决方案。广泛的实验证明了我们的低成本传感器构型及其在不利条件下的鲁棒性的有效性。数据将在https://www.2077ai.com/omnihd-scenes上发布。
自然状态(儿子)指标对于监视我们的努力是否有助于自然的恢复,这是任何全面的自然战略的基本方面。测量自然的各个方面是不可行的或实用的。因此,我们试图确定一小部分指标,这些指标可以表明自然的整体健康状况。
根据美国汽车工程师学会 (SAE) 的定义,自动驾驶分为六个级别。这些级别从代表无自动化的 0 级到代表完全自动化的 5 级不等。每个级别都表明自动驾驶技术的发展和实施向前迈出了一步。下面是每个级别的详细说明。在 0 级,没有自动化,驾驶员完全负责控制车辆。虽然车辆可能包括前方碰撞警报或紧急制动等基本系统,但这些系统不被视为自动化,因为它们不承担任何驾驶任务。驾驶员必须执行所有功能,包括转向、制动、加速和驾驶车辆。进入 1 级,我们遇到了自动化的第一阶段,称为“驾驶辅助”。在这个级别,车辆可以协助驾驶员转向或加速和制动,但不能同时进行。例如,自适应巡航控制等功能有助于保持设定的速度,同时调整与前方车辆的距离。车道保持辅助系统还提供轻微的转向调整,以保持车辆在车道上。
摘要。本文介绍了非正式小巴出租车中驾驶行为的机器学习分析,重点是受控和不受控制的环境。非正式的小巴出租车在城市运输中起着至关重要的作用,尤其是在发展中国家,但它们的驾驶方式和安全含义仍然不足。我们利用探索性因素分析来分析来自小巴出租车乘客携带的智能手机GP收集的数据,从而确定关键的驾驶行为和模式。我们的研究强调了在受控环境和不受控制的环境之间的驾驶方式中,对安全性和e ffi效率的见解。这些发现为政策制定者,运输计划者和技术开发人员提供了宝贵的信息,旨在提高非正式运输部门的城市流动性和安全性。