我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
我们推出了 Claude 3,这是一个新的大型多模式模型系列 - Claude 3 Opus 是我们功能最强大的产品,Claude 3 Sonnet 兼具技巧和速度,以及 Claude 3 Haiku ,是我们速度最快、价格最便宜的模型。所有新模型都具有视觉功能,可以处理和分析图像数据。Claude 3 系列在基准评估中表现出色,并在推理、数学和编码指标上树立了新标准。Claude 3 Opus 在 GPQA [1]、MMLU [2]、MMMU [3] 等评估中取得了最佳效果。Claude 3 Haiku 在大多数纯文本任务上的表现与 Claude 2 [4] 一样好甚至更好,而 Sonnet 和 Opus 则明显优于它。此外,这些模型在非英语语言中表现出更高的流利程度,使其更适合全球受众。在本报告中,我们对我们的评估进行了深入分析,重点关注核心能力、安全性、社会影响以及我们在负责任的扩展政策 [5] 中承诺的灾难性风险评估。