多模式大语模型(MLLM)具有复杂的语言和视觉数据表现出了显着的理解和推理能力。这些进步刺激了建立通才的机器人MLLM熟练理解复杂人类指示并完成各种体现任务的愿景。然而,由于机器人平台上可用的计算和内存能力通常有限,为现实世界机器人开发MLLM是具有挑战性的。相比之下,MLLM的推断涉及存储数十亿个Pa-Rameters并执行巨大的计算,并施加了巨大的硬件需求。在我们的论文中,我们试图通过利用有趣的观察来应对这一挑战:相对容易的情况构成了控制机器人以完成各种任务的大部分程序,并且通常需要更小的模型才能获得正确的机器人动作。以这种观察的启发,我们提出了一个d ynally e xit框架,用于r obotot v ision-l an an an an an an an an an an an an a an an an a an an a an a an an a ction模型(deer-vla或Simpple Deer),该模型会根据每个情况自动调整激活的MLLM的大小。该方法利用了MLLM中的多exit档案,该方法一旦在特定情况下激活了模型的适当大小,该模型就可以终止处理,从而避免了进一步的冗余计算。此外,我们开发了建立鹿的早期终止标准的新型算法,以预定义的要求(例如,计算成本)(即,功耗)以及峰值计算消耗(即,延迟)和GPU内存使用量。这些增强功能确保鹿在不同的资源限制下有效运行,同时保持竞争性能。此外,我们设计了一种量身定制的培训方法,用于在此类多EXIT体系结构之上集成时间信息,以合理地进行预先操作。在加尔文机器人操纵基准上,鹿表明,LLM的计算成本显着降低了5.2-6.5倍,而LLM的GPU记忆则在2-6倍中,而不会损害性能。代码和检查点可在https://github.com/yueyang130/deer-vla上找到。