实现强大而实时的3D感知是自动驾驶汽车的基础。虽然大多数现有的3D感知方法优先考虑检测准确性,但十个忽略了关键方面,例如计算效率,板载芯片部署友好性,对传感器安装偏差的韧性以及对各种VE-HILE类型的适应性。为了应对这些挑战,我们提出了nvautonet:一种专业的鸟类视图(BEV)感知网络 - 针对自动化车辆的明确量身定制。nvautonet将同步的相机图像作为输入,并预测3D信号(例如障碍物,自由空间和停车位)。NVAUTONET架构(图像和Bev Back-bones)的核心依赖于有效的卷积网络,该网络使用Tensorrt优化了高性能。我们的图像到BEV转换采用简单的线性层和BEV查找表,从而确保了快速推理速度。Nvautonet在广泛的专有数据集中受过培训,在NVIDIA DRIVE ORIN SOC上以每秒53帧的速度运行,始终达到升高的感知精度。值得注意的是,Nvautonet表现出对不同汽车模型产生的偏差偏差的韧性。此外,Nvautonet在适应各种车辆类型方面表现出色,这是通过廉价模型的微调程序来促进的,可以加快兼容性调整。
环境,建立内部世界模型表示,做出决策并采取措施[9,50]。,尽管数十年来在学术界和工业上做出了巨大的努力,但他们的部署仍限于某些杂物或场景,并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常,感知模型会面临概括到不同环境的挑战,随着地理位置,传感器配置,天气条件,开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2,16,54]。是由人类学习如何感知和刺激世界的动机[27,28,49],我们主张采用驾驶视频作为通用界面,将其推广到具有动态期货的各种环境。基于此,首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识(图1)。通过预测未来,视频预测因子本质上了解了自主驾驶的两个重要方面:世界如何运作以及如何在野外安全地操纵。最近,社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域,视频背景大多是静态的,机器人的运动很慢,并且视频的分解很低。相比之下,对于驾驶场景 - iOS,它与室外环境高度斗争,代理人涵盖了更大的动作,以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是,在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并未像经典的机器人任务(例如,操作)那样实现概括能力,仅限于有限的场景,例如流量密度低[4]的高速公路[4]和小型数据集[15,23,33,33,33,45,45,47],或者在环境方面进行不同的条件,以使38个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异[3](33,45,47),以下情况下的情况[3](33,33,45,47),这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机,我们旨在构建一个自动驾驶的视频预测模型,能够概括为新的条件和环境。为此,我们必须回答以下问题:(1)可以以可行且可扩展的方式获得哪些数据?(2)我们如何制定一个预测模型来捕获动态场景的复杂演化?(3)我们如何将(基础)模型应用于下游任务?
2小时工资估计为每小时$ 82.83。国家特定的职业就业和工资估计NAICS 336100-机动车制造,2023年5月,https://www.bls.gov/oes/current/current/current/naics4_336100.htm,上次上次访问2024年10月9日。劳工统计局估计,工资平均占私人工人总薪酬的70.2%。因此,NHTSA估计每小时薪酬成本为$ 117.66。
我的名字叫吉姆·康纳顿(Jim Connaughton)。我是JLC Strategies的首席执行官,技术和政策咨询公司,与技术初创公司,创新项目开发人员,私人和上市公司以及少数几个政策智囊团,大学和政府组织合作。在这次讨论中,我还担任了八年的环境质量顾问主席,并自豪地在国会一致通过了原始的小型企业责任救济和布朗领域的振兴法案中,以与成千上万的角色一起发挥了很小的作用(“ 2002年的布朗领域振兴法案)(“布朗文件法案”)。我还是AI数据中心基础设施启动Nautilus Data Technologies的董事长兼首席执行官; C3.AI的执行副总裁,最早的AI软件技术公司之一;以及Constellation Energy执行副总裁,这是美国最具创新性的开发商和发电的运营商,以及能源技术和服务的提供商。我在布朗领域及其周围度过了职业生涯的大部分时间。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
广泛应用于自主驾驶中的基于深度学习的单眼深度估计(MDE)很容易受到对抗性攻击的影响。先前针对MDE模型的物理攻击依赖于2D广泛的补丁,因此它们仅影响MDE地图中的一个小型局部区域,但在各种观点下都失败了。为了解决这些限制,我们提出了3D深度傻瓜(3d 2傻瓜),这是对MDE模型的第一个基于3D纹理的对抗性攻击。3d 2傻瓜被专门优化,以生成3D对抗纹理对型号的车辆类型,并在恶劣天气条件(例如雨水和雾)中具有改善的鲁棒性。实验结果验证了我们3d 2傻瓜在各种情况下的出色性能,包括车辆,MDE Mod-els,天气状况和观点。现实世界中使用打印3D纹理的实验实验进一步表明,我们的3d 2傻瓜可能会导致超过10米的MDE误差。该代码可在https://github.com/gandolfczjh/3d2fool上找到。
我们应对行人模拟中的内容多样性和收获性的挑战,以驱动方案。最近的行人动画框架具有重要的限制,其中他们主要关注轨迹[48]或参考视频[60]的内容,因此忽略了这种情况下人类运动的潜在多样性。这种限制限制了产生行人行为的能力,这些行为表现出更大的变化和现实动作,因此重新严格使用其用法,为驾驶模拟系统中的其他组件提供丰富的运动内容,例如,突然改变了自动驾驶汽车应响应的运动。在我们的方法中,我们努力通过展示从各种来源获得的各种人类动作(例如生成的人类运动)来超越限制,以遵循给定的轨迹。我们的框架的基本贡献在于将运动跟踪任务与轨迹结合到以下,这可以跟踪特定运动零件(例如上半身),同时遵循单个策略的给定轨迹。以这种方式,我们在给定情况下显着增强了模拟人类运动的分歧,以及内容的可控性,包括基于语言的控制。我们的框架有助于生成