改善视力语言模型的思想链推理

视觉语言模型(VLMS)中的思考链(COT)推理对于改善无法释放性和可信赖性至关重要。但是,当前的培训食谱通常依赖于以统一理由为主导的ondatasets。在这项工作中,我们表明对简短答案的VLM进行训练会导致较差的推理任务,要求详细解释。为了解决这一局限性,我们提出了一个两阶段的培训后策略,该术时扩展了简短的答案数据以增强COT推理的用法。首先,用……

来源:Apple机器学习研究

视觉语言模型(VLMS)中的思考链(COT)推理对于改善无法释放性和可信赖性至关重要。但是,当前的培训食谱通常依赖于以统一理由为主导的ondatasets。在这项工作中,我们表明对简短答案的VLM进行训练会导致较差的推理任务,要求详细解释。为了解决这一局限性,我们提出了一个两阶段的培训后策略,该术时扩展了简短的答案数据以增强COT推理的用法。首先,用GPT-4O通过COT推理加生的编织简短答案,通过微调增强了VLM'Scot功能。其次,我们利用简短的答案作为增强学习的结果奖励。具体而言,矮个子被用作正确的指标,可从模型生成的推理链中构造正(正确)和负(不正确)对。然后,这些对通过直接偏好优化来校准模型的推理。我们的实验显示了基准标记上的COT推理的显着iMprovement,以及增强的概括性TOIRICT TOIRECT回答预测。这项工作为VLM COT培训提供了关键数据资源,并证明了培训后多模型模型的胜任有效性。

    †在Apple•Carnegie Mellon University完成的工作
  • †在Apple
  • ‡卡内基·梅隆大学