Nvidia开放海量AI模型NVLM挑战GPT-4

Nvidia 宣布其新的 AI 模型 NVLM 已开源,可供更广泛的研究人员和开发人员社区使用。这一决定打破了先进人工智能系统封闭的趋势,并提供了前所未有的尖端技术获取途径。该模型的权重和训练代码将公开。然而,训练数据并不开放,这意味着 […]Nvidia 的开放式大规模 AI 模型 NVLM 挑战 GPT-4 的帖子首次出现在 AI 新闻中。

来源:AI新闻
Nvidia 宣布其新的 AI 模型 NVLM 已开源,可供更广泛的研究人员和开发人员社区使用。这一决定打破了先进人工智能系统封闭的趋势,并提供了前所未有的尖端技术访问权限,该模型的权重和训练代码将公开。不过,训练数据并未开放,这意味着该模型仅部分开源。NVLM(NVIDIA Vision-Language Model)多模态 AI 系统,可以高水平处理文本和图像信息,可以将其比作数字化机器。挑战 OpenAI 和 Google 等科技巨头领先系统的大脑。 NVLM-D-72B 的多模态功能 NVLM-D-72B 就像一个数字多面手,可以以令人印象深刻的技巧处理图像和文本。它可以解释模因、分析图像并逐步解决数学问题,与许多其他多模态模型不同,它实际上在接受图像和文本训练后在文本任务上表现得更好。它学会从不同的角度看待世界,从而在所有领域都变得更加聪明,它可以通过阅读文本和解释图像来理解模因中的幽默,它可以回答有关图像特定部分的问题,例如比较对象。向左和NVLM-D-72B 甚至可以解决基于手写文本或图像表格的数学问题。通过精心设计的多模态训练,该模型在文本任务上表现出更高的准确性,展示了 NVLM 1.0 的卓越功能。模型权重旨在促进该领域的进一步研究。https://research.nvidia.com/labs/adlr/NVLM-1
新的AI模型NVLM

模型的权重和训练代码将公开。然而,训练数据不开放,这意味着该模型仅部分开源。

NVLM-D-72B 的多模式功能