摘要 - 深度学习在许多领域都表现出了非凡的成功,包括计算机视觉,自然语言处理和强化学习。这些领域中的代表性人工神经网络涵盖了卷积神经网络,变压器和深Q网络。基于单峰神经网络,已经引入了许多多模型模型,以解决一系列任务,例如视觉问题答案,图像字幕和语音识别。体现AI中指令跟随机器人策略的兴起刺激了一种新型的多模式模型的开发,称为视觉语言动作模型(VLAS)。他们的多模式能力已成为机器人学习的基础元素。已经提出了各种方法来增强特征,例如多功能性,灵巧性和概括性。一些模型专注于精炼特定组件。其他人旨在制定旨在预测低级行动的控制政策。某些VLA充当高级任务计划者,能够将长途任务分解为可执行子任务。在过去的几年中,出现了无数的vlas,这反映了体现AI的迅速发展。因此,必须通过全面的调查来捕获不断发展的景观。
主要关键词