现有的车辆轨迹预测模型与普遍性,预测不确定和处理复杂相互作用的斗争。通常是由于针对特定数据集定制的复杂体系结构和效率低下的多模式处理的限制所致。我们使用Reg Ister查询(PerReg+)提出每个CEVER,这是一个新型的轨迹预测框架,引入了:(1)通过自我抗议(SD)和蒙版重建(MR),捕获全球上下文和细粒度细节的双重水平表示学习。此外,我们重建段级轨迹和泳道段的方法和查询下降的车道段,有效地利用上下文信息并改善了概括; (2)使用基于寄存器的查询和预处理增强了多模式,从而消除了对聚类和抑制的需求; (3)在微调过程中进行自适应及时调整,冻结主要体系结构并优化少量提示以进行有效的适应性。perreg+设置了Nuscenes [1],Argoverse 2 [2]和Waymo Open Motion数据集(WOMD)[3]的新最新性能。引人注目的是,我们验证的模型在较小的数据集中将误差降低了6.8%,多数据集训练增强了概括。在跨域测试中,PERREG+与非预言变体相比,B-FDE降低了11.8%。
摘要:使用人工智能(AI)进行高级图像分析的集成是自动驾驶汽车(AVS)进化的关键。本文对AVS图像分析中使用的最重要的数据集和最新的AI解决方案进行了详尽的审查。数据集,例如CityScapes,Nuscenes,Carla和Talk2CAR,构成了培训和评估不同AI模型的基准,具有符合自动驾驶各个方面的独特特征。关键AI方法,包括卷积神经网络(CNN),变压器模型,生成对抗网络(GAN)和视觉语言模型(VLMS)。本文还对现实世界中各种AI技术进行了比较分析,重点是语义图像细分,3D对象检测,虚拟环境中的车辆控制以及使用自然语言的车辆交互。同时突出了多个数据集和仿真平台(如Airsim,Torcs和Summit)在丰富AV的训练数据和测试环境中的作用。通过综合数据集,AI解决方案和比较性能评估的信息,本文为研究人员,开发人员和行业利益相关者提供了至关重要的资源,可清楚地了解自动驾驶汽车图像分析技术的当前景观和未来方向。
摘要。由于检测和跟踪任务之间的冲突,现有的基于视觉3D感知的端到端跟踪器遭受性能降解。在这项工作中,我们到达了这一骗局的底部,这隐约归因于以前不兼容的特定于任务的对象功能。我们发现这两个任务之间的冲突在于它们部分冲突的分类梯度,这源于它们在积极样本分配中的微妙差异。基于此观察者,我们建议在两个任务中与对象查询中的这些相互矛盾的梯度协调那些冲突的梯度。我们还根据两个任务中的极性动态将所有对象查询分为四组。掩盖了具有冲突的正分配的查询集之间的注意。修改跟踪分类损失以抑制不准确的预测。为此,我们提出了OnEtrack,这是第一个单阶段的接头检测和跟踪模型,该模型弥合了统一对象特征在代表下的检测和跟踪之间的差距。在基于Nuscenes摄像头的对象跟踪基准上,OnEtrack在有效集合上的效果超过6.9%的Amota,在测试集上的作品均优于AMOTA,AMOTA的作品比3.1%。
虽然行为克隆最近已成为自主驾驶的非常成功的范式,但Humans很少学会通过单独的模仿或行为克隆来执行复杂的任务,例如驱动或行为。相比之下,人类的学习通常涉及在整个交互式学习过程中的其他详细指导,即通常通过语言的反馈提供详细的信息,以详细信息,以进行审判的哪一部分进行,不正确或次要地进行。以这种观察的启发,我们引入了一个有效的基于反馈的框架,用于改善基于行为克隆的传感驱动剂培训。我们的关键见解是利用大语模型(LLM)的重新进步,以提供有关驾驶预测失败背后的理由的纠正良好的反馈。更重要的是,我们引入的网络体系结构是有效的,是第一个基于LLM的驾驶模型的第一个感觉运动端到端培训和评估。最终的代理在Nuscenes上的开环评估中实现了最新的性能,在准确性和碰撞率上的表现优于先前的最新时间超过8.1%和57.1%。在卡拉(Carla)中,我们的基于相机的代理在以前的基于激光雷达的AP摄入率上提高了16.6%的驾驶得分。
高清(HD)地图对于自动驾驶系统的安全至关重要。虽然现有技术启用了相机图像和板载传感器以生成对高精度地图的审核,但它们受到对单帧输入的依赖的限制。这种方法限制了它们在诸如OCClusions之类的复杂情况下的稳定性和性能,这主要是由于缺乏时间信息。此外,当应用于更广泛的感知范围时,它们的性能会降低。在本文中,我们介绍了流媒体,这是一种新颖的在线映射管道,擅长于视频的长期时间建模。流媒体网络采用了多点的关注和时间信息,可以使大型本地高清图的构建具有高稳定性,并进一步解决了现有方法的限制。此外,我们严重地使用了广泛使用的在线HD MAP构造基准和数据集,Argoverse2和Nuscenes,在现有评估协议中揭示了显着的偏见。我们根据地理跨度来启动基准,从而促进公平而精确的评估。实验结果验证了流媒体网络在所有设置中都显着超过现有方法,同时保持在线推断速度为14。2 fps。我们的代码可在https://github.com/yuantianyuan01/ streammapnet上使用。
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
模型。drivelm-agent采用轨迹令牌092,可以应用于任何一般VLM [17、19、23、34],093,以及图形提示方案,该方案模型logi-094 cal依赖关系作为VLMS的上下文输入。结果095是一种简单,优雅的方法,可有效地重新利用096 VLMS用于端到端AD。097我们的实验提供了令人鼓舞的结果。我们发现098在Drivelm上的GVQA是一项具有挑战性的任务,其中Cur-099租金方法获得适中的得分,并且可能需要更好地获得逻辑依赖的100型,以实现101强质量质量质量强大的效果。即使这样,在开放环计划环境中进行测试时,Drivelm-Agent已经有102个已经在最先进的驾驶特定103型型号[13]中竞争性地发挥作用,尽管其任务不合时宜和通用架构,但仍有104个模型。fur-105 Hoperore,采用图形结构可改善零弹性106概括,使Drivelm-Engent在训练或部署期间在108 Waymo DataSet [28]进行训练或仅在NUSCENES [3] 109数据上训练后,在108训练或部署期间都看不见新颖的对象。从这些结果中,我们认为,提高GVQA 110具有建立具有强烈概括的自动驾驶111代理的巨大潜力。112
评估自动驾驶汽车计划算法的性能需要模拟长尾安全性 - 关键的交通情况。但是,产生此类情况的传统方法通常在收获和现实主义方面缺乏,而忽略了代理相互作用的动态。为了减轻这些局限性,我们引入了SAFE -S IM,这是一种新型基于扩散的可控闭环安全 - 关键模拟框架。我们的方法产生了两个不同的优势:1)逼真的长尾安全至关重要方案的产生,这些场景紧密模仿了现实世界的条件,以及2)增强了可控性,从而实现了更全面和更互动的评估。我们开发了一种新颖的方法,可以通过在剥夺过程中的对抗性术语模拟安全 - 关键情景,这使对抗者能够以合理的操作来挑战计划者,而现场的所有特工都表现出反应性和现实的行为。此外,我们提出了新颖的指导目标和部分扩散过程,使用户能够控制生成的场景的关键方面,例如碰撞类型和对抗驱动程序的侵略性,同时保持行为的现实主义。我们使用Nuscenes数据集凭经验进行了验证框架,并证明了现实主义和控制性的改进。这些发现肯定,扩散模型为关键的关键性,主动交通模拟提供了强大而多才多艺的基础,从而扩展了其效用,使其在更广泛的自动驾驶范围内扩展。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。