早期融合有助于视力语言动作模型更好地__

早期融合有助于视力语言动作模型更好地

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

早期融合有助于视力语言动作模型更好地

¥ 1.0

热度

摘要：视觉语言动作（VLA）模型的最新进展可以使机器人根据语言或基于目标的说明执行广泛的任务。这些VLA模型通常将文本和图像编码为脱节令牌，从而生成与给定指令保持一致的动作。这要求VLA模型同时执行视觉语言理解和精确的闭环控制，从而给他们带来重大挑战，以使其概括为新环境。然而，对比的预训练的VLM，例如剪辑，已经具有视觉对齐能力，这些功能被当前的VLA模型未被充分利用。在本文中，我们提出了早期的Fusion VLA（EF-VLA），这是一种新颖的VLA架构，通过执行早期融合来利用Clip的视觉理解，在传递到变压器政策之前，提取与任务指导相关的细粒度视力语言令牌。ef-vla保持VLM冷冻，允许其有效执行看不见的任务而无需进行精细调整，这通常会降低概括能力。仿真和现实世界实验表明，EF-VLA在不同任务上的最先进的VLA模型优于最先进的VLA模型，并且在看不见的环境中具有重要的概括能力。

添加pdf代下载 VIP点击下载文件

早期融合有助于视力语言动作模型更好地

主要关键词

VLM 模型的机器人广泛的细调整细粒度动作令牌闭环控制先进的相关的看不见训练的任务概括根据 EF 一致的目标的当前的 VLA 视觉精确的执行模型语言图像编码能力重要的充分利用变压器具有早期的

早期融合有助于视力语言动作模型更好地PDF文件第1页

早期融合有助于视力语言动作模型更好地PDF文件第2页

早期融合有助于视力语言动作模型更好地PDF文件第3页

早期融合有助于视力语言动作模型更好地PDF文件第4页

早期融合有助于视力语言动作模型更好地PDF文件第5页

可下载资源数量

已经购买

下载数量：1

早期融合有助于视力语言动作模型更好地

早期融合有助于视力语言动作模型更好地

相关文件推荐

视觉语言动作模型

在机器人动作中体现语言模型

朝着更好的视力启发的视觉语言模型

与反事实>的大规模视力语言模型中的偏见

大语言模型

大语言模型

大语言模型

利用农业中的大型视力和语言模型：评论

Robomamba：机器人的有效视觉语言 - 动作模型

冷冻语言模型有助于ECG零拍学习

赞美小语言模型

3D-VLA：3D视觉语言 - 动作生成世界模型

使用大语言模型

变压器语言模型

使用大语言模型

赞美小语言模型

基于知识的语言模型

闻到的探测器：用大语言模型

多语言模型 - 唐，Zhao

使用大语言模型

了解大语言模型

使用大语言模型

n-gram语言模型

评估大语言模型

融合域适应域的视觉和医学视觉问题的语言模型回答

可推广机器人技术的多模式视觉语言 - 动作基础模型

对话应用程序的语言模型

生成图像作为动作模型

视觉语言模型作为...

基于变压器的单细胞语言模型

XiaoMi-AI