海豚：驾驶的多模式语言模型___XiaoMi-AI 助力科研平台

海豚：驾驶的多模式语言模型

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

海豚：驾驶的多模式语言模型

¥ 1.0

热度

摘要。寻求完全自动驾驶汽车（AV），能够以人类的理解和响应能力来浏览复杂的现实情况。在本文中，我们介绍了海豚，这是一种新颖的视觉语言模型，以吸收人类的能力，成为一名自治驾驶助手。海豚擅长处理包括视频（或图像）数据，文本指令和历史控制信号的多模式输入，以生成与提供指令相对应的知情输出。在开源的视觉模型（OpenFlamingo）构建基础上，我们首先通过一般领域中创新的基础思维链（GCOT）过程来增强海豚的推理能力。然后，我们通过构建特定的指令数据并进行指导调整来将海豚定制到驾驶领域。通过BDD-X数据集的利用，我们将四个不同的AV任务设计为海豚，以促进对复杂驾驶场景的整体理解。因此，海豚的独特特征被描述为两个维度：（1）能够对复杂且长尾巴的开放世界驾驶场景和解决AV任务的范围进行全面理解，以及（2）通过反置式学习和错误恢复，包括无梯度的即时概述。该匿名演示可在https://vlm-driver.github.io/上获得。

添加pdf代下载 VIP点击下载文件

海豚：驾驶的多模式语言模型

主要关键词

视觉包括不同的梯度控制信号数据集视觉模型数据进行理解复杂的指令驾驶模型海豚错误恢复场景特定的多模式 AV 能力构建复杂信号的对应的输入

海豚：驾驶的多模式语言模型PDF文件第1页

海豚：驾驶的多模式语言模型PDF文件第2页

海豚：驾驶的多模式语言模型PDF文件第3页

海豚：驾驶的多模式语言模型PDF文件第4页

海豚：驾驶的多模式语言模型PDF文件第5页

可下载资源数量

已经购买

下载数量：1

海豚：驾驶的多模式语言模型

海豚：驾驶的多模式语言模型

相关文件推荐

自动驾驶的语言模型

使用多模式语言模型检测移情

从大型语言模型到多模式AI

大语言模型

大语言模型

使用大语言模型

赞美小语言模型

基于知识的语言模型

闻到的探测器：用大语言模型

多语言模型 - 唐，Zhao

使用大语言模型

了解大语言模型

使用大语言模型

n-gram语言模型

评估大语言模型

PCA基础：评估感知认知链中的多模式大语言模型

调整大型语言模型

通过大语言模型迈向一般情报

语言模型中的算法进度

大语言模型如何了解基因和细胞

Medinsight：使用大语言模型

6G安全性中的大型语言模型

AI-602 - 大语言模型系统

技术检查 - 多模式基础模型

金融中的大型语言模型

网络安全中的大型语言模型

重新越狱大语言模型

使用生成语言模型

较小的语言模型是更好的零弹药机 -

与可合差的库增强语言模型

XiaoMi-AI