*其他法案所需的许可证触发IAA OGD参与者| Illustrative – some components would not apply to same project YESAA – Yukon Environmental and Socio-Economic Assessment Act / MVRMA – Mackenzie Valley Resource Management Act / MBCA – Migratory Birds Convention Act / IBWTA – International Boundary Waters Treaty Act / CPRA – Canadian Petroleum Resource Act / Offshore Accords – Canada – NS and NFLD Offshore Accords / CEPA – Canadian Environmental Protection Act / Nuppaa - Nunavut计划和项目评估法(NUPPAA)< / div>
我们提出了PCA基础,这是一种多模式决策 - 用于评估多模式大型语言模型(MLLM)的整体功能的基准。偏离了专注于简单任务和单个模型功能的预先基准,PCA基础台面引起了三种复杂的方案:自动驾驶,国内机器人和开放世界游戏。给定的任务说明和不同的文本,该模型必须在推理链中无缝地掌握感知,齿轮和行动的多种功能,以做出准确的决策。此外,PCA基础台上的错误定位功能,在感知,知识或推理等领域的审查模型不准确。这增强了部署MLLM的可靠性。为了平衡评估的准确性和效率,我们可以使用PCA-Eval,一种自动评估程序,并评估10个普遍的MLLM。结果揭示了开源模型与强大的专有模型(如GPT-4 Vision)之间的显着性能差异。为了打扮,我们介绍了体现的实体演化(EIE),这是一个自动框架,用于在多模式体现的环境中综合说明调谐示例。EIE在PCA板台上有7,510个培训示例,并提高了开源MLLM的性能,偶尔超过了GPT-4 Vi-Sion(决策准确性+3%),从而确保EIE的有效性。我们的发现表明,诸如GPT4-Vision之类的强大MLLM在实施剂中显示了决策的希望,为MLLM研究开辟了新的途径。所有基准数据和评估代码均公开。
1N1XX 地理空间情报 1N2XX 信号情报分析员 1N3XX 密码语言分析员 1N4XX 网络情报分析员 1POXX 机组人员飞行设备 1S0XX 安全 1T0XX 生存、逃避、抵抗与逃脱 1T2XX 伞降救援 1U0XX 职业 RPA 传感器操作员 1W0XX 天气 2A0XX 航空电子测试站与组件 2A3XX 航空电子系统 2A5XX 航空航天维护 2A6XX 航空航天推进 2A7XX 飞机金属技术 2E1XX 卫星、宽带与遥测系统 2E2XX 网络基础设施系统 2E6XX 通信电缆与天线系统 2F0XX 燃料 2G0XX 物流计划 2M0XX 导弹维护 2P0XX 精密测量设备实验室 2R0XX 维护管理分析 2R1XX 维护管理生产 2S0XX 物资管理 2T0XX 交通管理 2T1XX 车辆作战 2T2XX 空中运输 2T3XX 车辆维护 2W0XX 弹药系统 2W1XX 飞机武器系统 2W2XX 核武器