摘要 - 鉴于他们熟练使用非文本数据(包括图像和视频)的熟练程度,大型语言模型(MLLM)已成为研究界的重要领域。本研究旨在通过引入DraveGpt4(一种基于LLMS的新型可解释的最终自动驾驶系统)来扩展MLLM的应用到自动驾驶领域。能够处理多帧视频输入和文本查询,DriveGpt4促进了对车辆动作的解释,提供相关的推理,并有效地解决了用户提出的各种问题。此外,DriveGPT4以端到端方式预测低级车辆控制信号。通过使用定制的视觉说明调谐数据集实现了这些高级功能,该数据集是专门针对自主驾驶应用程序量身定制的,并结合了混合填充培训策略。DriveGpt4代表了利用LLM的开创性努力,以开发可解释的端到端自动驾驶解决方案。在BDD-X数据集上进行的评估展示了DriveGPT4的质量和定量性能。此外,特定于域的数据的精细调整使DriveGpt4在与GPT4-V形成对比时,可以在自主驾驶接地方面产生接近甚至改善的结果。本文的网页可在https://tonyxuqaq.github.io/projects/drivegpt4上找到。
主要关键词