多模式大型语言模型(MLLM)已成为研究界的重要领域,鉴于它们在处理和推理非文本数据(包括图像和视频)方面的处理能力。这项研究旨在通过引入DraveGpt4(一种基于LLMS的新型端到端端驾驶系统)来扩展MLLM的应用到自动驾驶领域。cap-pable促进了对车辆动作的促进,提供相关的推理,并有效地解决了用户提出的各种问题。此外,DriveGPT4以端到端的方式预测低级车辆控制式signals。通过使用定制的视觉说明调谐数据集实现这些高级功能,该数据集是专门针对自主驾驶功能量身定制的,并结合了混合调节培训策略。DriveGPT4代表了利用LLM的努力来开发可解释的端到端自主驾驶解决方案。在BDD-X数据集上进行的评估展示了DriveGPT4的质量和定量性能。从事域特异性数据的微调使DriveGpt4能够在与GPT4-V形成鲜明对比的自主驾驶接地方面产生接近甚至可以证明的结果。代码和数据集将公开可用。
主要关键词