动作空间关键词检索结果

接地在动作中的多模式大语模型

Grounding Multimodal Large Language Models in Actions

多模式大语言模型(MLLM)已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中,我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间,以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作,我们表明,学识渊博的令牌化可以实现足够的建模精度,从而在下游任务上产生最佳性能。对于离散的动作…