台式标记,以测量VLM的零射门原因和一致性。我们评估了最新的VLM,发现即使表现最佳的模型也无法证明强大的视觉推理能力和一致性,这表明需要进行基础努力以使VLMS能够系统地和始终如一地像人类一样执行视觉推理。作为早期一步,我们提出了一个两阶段的培训框架,旨在提高VLM的推理和一致性而没有人类注释。该框架由两个主要阶段组成:监督的微调和从反馈中学习,以指导VLMS生成既有一致性又扎根的推理链。我们的框架工作在推理性能和一致性方面表现出4%的相对改善。我们在https://github.com/ yangyi-chen/cotconsistency上发布数据集。