详细内容或原文请订阅后点击阅览
麻省理工学院的研究人员教人工智能模型解释图表
新的 ChartNet 训练数据集可以提高视觉语言模型的准确性,帮助分析业务趋势或解释科学数据。
来源:MIT新闻 - 人工智能为了在快节奏的全球市场中加速和完善决策,企业可以部署生成式人工智能模型来帮助总结和解释通常填充市场摘要和财务报告的图表。
但即使是最新的视觉语言模型有时也难以完成这项任务,因为它需要一个模型来整合视觉、数字和语言理解。投资最先进模型的公司可能仍然会收到不准确或不完整的信息。
为了填补这一性能差距,麻省理工学院和麻省理工学院-IBM 计算研究实验室的研究人员为 AI 用户开发了一种多方面的资源,专门用于教授视觉语言模型 (VLM) 如何有效地解释图表。
他们使用一种新颖的数据生成方法来构建最先进的数据集,其中包含超过一百万个不同的图表。该数据集还对每个图表图像的许多视觉、语言和数字组件进行编码,使模型能够稳健地推理图表中的信息。
研究人员使用这个名为 ChartNet 的数据集来训练一系列开源 VLM。 在数据提取和图表汇总等任务上,许多较小的模型的性能明显优于较大的商业模型。
通过使开源模型超越商业模型,ChartNet 可以让预算有限的小公司更容易地利用人工智能。该开源数据集可用于提高人工智能模型执行业务趋势分析和科学数据解释等任务的能力。
数据集瓶颈
研究人员在开发生成式人工智能模型方面取得了长足进步,这些模型擅长自然语言处理和自然图像推理。但康迪奇说,很少有工作集中在解释图表中包含的复杂多模式数据上。
然而,对于几乎每个行业的大型和小型企业来说,图表理解都是一项关键任务。
数据生成
