我们提出了PCA基础,这是一种多模式决策 - 用于评估多模式大型语言模型(MLLM)的整体功能的基准。偏离了专注于简单任务和单个模型功能的预先基准,PCA基础台面引起了三种复杂的方案:自动驾驶,国内机器人和开放世界游戏。给定的任务说明和不同的文本,该模型必须在推理链中无缝地掌握感知,齿轮和行动的多种功能,以做出准确的决策。此外,PCA基础台上的错误定位功能,在感知,知识或推理等领域的审查模型不准确。这增强了部署MLLM的可靠性。为了平衡评估的准确性和效率,我们可以使用PCA-Eval,一种自动评估程序,并评估10个普遍的MLLM。结果揭示了开源模型与强大的专有模型(如GPT-4 Vision)之间的显着性能差异。为了打扮,我们介绍了体现的实体演化(EIE),这是一个自动框架,用于在多模式体现的环境中综合说明调谐示例。EIE在PCA板台上有7,510个培训示例,并提高了开源MLLM的性能,偶尔超过了GPT-4 Vi-Sion(决策准确性+3%),从而确保EIE的有效性。我们的发现表明,诸如GPT4-Vision之类的强大MLLM在实施剂中显示了决策的希望,为MLLM研究开辟了新的途径。所有基准数据和评估代码均公开。
主要关键词