开发可以理解和遵循语言指示的代理商对于有效且可靠的人类协作至关重要。最近的方法使用不经常的环境奖励的强化学习来训练这些代理,这给环境设计师带来了重大负担,以创建语言条件条件的奖励功能。随着环境和指示的复杂性,制作这种奖励功能变得越来越不切实际。为了解决这个问题,我们介绍了V-TIFA,这是一种新型方法,该方法通过利用Vision语言模型(VLMS)的反馈来训练跟随剂。V-TIFA的核心思想是查询VLM,根据语言的结构对整个轨迹进行评分,并使用结果评分直接训练代理。与先前的VLM奖励生成方法不同,V-TIFA不需要手动制作的任务规范,使代理商能够从各种自然语言教学中学习。在体现环境中进行的广泛实验表明,在相同条件下,V-TIFA优于现有的奖励生成方法。