将驾驶行为适应新的环境,库斯和法律是自主驾驶中的一个长期问题,排除了澳大利亚车辆(AVS)的广泛部署。在本文中,我们提出了LLADA,这是一种简单而强大的工具,它使人类驾驶员和自动驾驶汽车都可以通过调整其任务和动作计划来在新的地方进行访问规则,从而在任何地方开车。llada通过利用大型语言模型(LLMS)在解释本地驾驶员手册中的流量规则方面的令人印象深刻的零弹性可推广性来实现这一目标。通过广泛的用户研究,我们表明LLADA的说明可用于消除野外野外未受的情况。我们还展示了LLADA在现实世界数据集中适应AV运动计划策略的能力; Llada优于我们所有指标的基线计划。请查看我们的网站以获取更多详细信息:Llada。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
Abstract ....................................................................................................................................................ii
我们应对行人模拟中的内容多样性和收获性的挑战,以驱动方案。最近的行人动画框架具有重要的限制,其中他们主要关注轨迹[48]或参考视频[60]的内容,因此忽略了这种情况下人类运动的潜在多样性。这种限制限制了产生行人行为的能力,这些行为表现出更大的变化和现实动作,因此重新严格使用其用法,为驾驶模拟系统中的其他组件提供丰富的运动内容,例如,突然改变了自动驾驶汽车应响应的运动。在我们的方法中,我们努力通过展示从各种来源获得的各种人类动作(例如生成的人类运动)来超越限制,以遵循给定的轨迹。我们的框架的基本贡献在于将运动跟踪任务与轨迹结合到以下,这可以跟踪特定运动零件(例如上半身),同时遵循单个策略的给定轨迹。以这种方式,我们在给定情况下显着增强了模拟人类运动的分歧,以及内容的可控性,包括基于语言的控制。我们的框架有助于生成
要允许复制或重新出版,请联系美国航空与宇航学院1801 Alexander Bell Drive,Suite 500,Reston,VA,20191–4344
虽然行为克隆最近已成为自主驾驶的非常成功的范式,但Humans很少学会通过单独的模仿或行为克隆来执行复杂的任务,例如驱动或行为。相比之下,人类的学习通常涉及在整个交互式学习过程中的其他详细指导,即通常通过语言的反馈提供详细的信息,以详细信息,以进行审判的哪一部分进行,不正确或次要地进行。以这种观察的启发,我们引入了一个有效的基于反馈的框架,用于改善基于行为克隆的传感驱动剂培训。我们的关键见解是利用大语模型(LLM)的重新进步,以提供有关驾驶预测失败背后的理由的纠正良好的反馈。更重要的是,我们引入的网络体系结构是有效的,是第一个基于LLM的驾驶模型的第一个感觉运动端到端培训和评估。最终的代理在Nuscenes上的开环评估中实现了最新的性能,在准确性和碰撞率上的表现优于先前的最新时间超过8.1%和57.1%。在卡拉(Carla)中,我们的基于相机的代理在以前的基于激光雷达的AP摄入率上提高了16.6%的驾驶得分。
实施高效且可持续的乘车系统需要制定良好的战略和伴随的公共政策。在基于严厉的停止场景中观察到最高的潜力。尽管这种情况在政治上可能不可行,但它显示了可以通过乘车来实现多少流量和降噪的上限。可以通过基于停止的服务设计观察到少量降低噪音,尤其是在居民区。门到门服务甚至可能会增加居民区的噪音。这项研究发表在运输研究部分,可访问开放式:https://doi.org/10.1016/j.trd.2020.102673
摘要我们提出了一种大型语言模型(LLM)的ChatScene-利用LLM的能力来为自动驾驶汽车的安全至关重要方案。给定的非结构化语言指令,代理首先使用LLMS生成文本描述的流量方案。这些SCE-NARIO描述随后被分解为几个子描述,以获取指定的细节,例如行为和车辆的位置。代理然后将文本描述的子筛选性转换为特定于域的语言,然后在模拟器中生成用于预测和控制的实际代码,从而促进了Carla Simulation Envimonment中的不同和复杂场景的创建。我们代理的关键部分是一个全面的知识检索组件,它通过训练包含情景描述和代码对的知识数据库来有效地将特定的文本描述转化为相应的特定领域代码段。广泛的实验结果强调了Chatscene在提高自动驾驶汽车安全性方面的功效。对于Intance,ChatScene产生的方案显示,与最先进的基线相比,在针对不同的基于强化的基于学习的自我车辆进行测试时,碰撞率增加了15%。此外,我们表明,通过使用我们生成的安全 - 关键方案来微调不同的基于RL的自主驾驶模型,它们可以降低碰撞率9%,超过Cur-Current Sota方法。代码可在https://github.com/javyduck/chatscene上找到。ChatScene有效地弥合了交通情况的文本描述与实际CARLA模拟之间的差距,从而提供了一种统一的方式,以方便地生成安全至关重要的方案,以进行安全测试和改进AVS。
环境,建立内部世界模型表示,做出决策并采取措施[9,50]。,尽管数十年来在学术界和工业上做出了巨大的努力,但他们的部署仍限于某些杂物或场景,并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常,感知模型会面临概括到不同环境的挑战,随着地理位置,传感器配置,天气条件,开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2,16,54]。是由人类学习如何感知和刺激世界的动机[27,28,49],我们主张采用驾驶视频作为通用界面,将其推广到具有动态期货的各种环境。基于此,首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识(图1)。通过预测未来,视频预测因子本质上了解了自主驾驶的两个重要方面:世界如何运作以及如何在野外安全地操纵。最近,社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域,视频背景大多是静态的,机器人的运动很慢,并且视频的分解很低。相比之下,对于驾驶场景 - iOS,它与室外环境高度斗争,代理人涵盖了更大的动作,以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是,在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并未像经典的机器人任务(例如,操作)那样实现概括能力,仅限于有限的场景,例如流量密度低[4]的高速公路[4]和小型数据集[15,23,33,33,33,45,45,47],或者在环境方面进行不同的条件,以使38个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异[3](33,45,47),以下情况下的情况[3](33,33,45,47),这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机,我们旨在构建一个自动驾驶的视频预测模型,能够概括为新的条件和环境。为此,我们必须回答以下问题:(1)可以以可行且可扩展的方式获得哪些数据?(2)我们如何制定一个预测模型来捕获动态场景的复杂演化?(3)我们如何将(基础)模型应用于下游任务?
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和