VQA关键词检索结果

VQAScore:评估和改进视觉语言生成模型

VQAScore: Evaluating and improving vision-language generative models

简介 文本到图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几只巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:但我们如何知道这些模型是否生成了我们想要的东西?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标 (VQAScore) 和基准数据集

在 Amazon SageMaker JumpStart 上微调用于视觉和文本用例的多模态模型

Fine-tune multimodal models for vision and text use cases on Amazon SageMaker JumpStart

在本文中,我们将展示如何微调文本和视觉模型(例如 Meta Llama 3.2),以便在视觉问答任务中表现更好。Meta Llama 3.2 Vision Instruct 模型在具有挑战性的 DocVQA 视觉问答基准上表现出色。通过利用 Amazon SageMaker JumpStart 的强大功能,我们展示了调整这些生成式 AI 模型以更好地理解和回答有关图像的自然语言问题的过程。

亿万富翁普拉特将在特朗普获胜后移居美国,自由派纷纷逃往加拿大

Billionaire Pratt Will Move To America After Trump Win As Liberals Flee To Canada

特朗普获胜后,亿万富翁普拉特将移居美国,自由派纷纷逃往加拿大特朗普上周三获胜后,自由派在过去五天里血压飙升——许多人在社交媒体上彻底崩溃,有些人甚至计划撤离加拿大。好消息是,虽然当选总统特朗普将于 1 月前往白宫,但那些被觉醒病毒感染的人正在计划撤离……卡马拉·哈里斯的支持者正在移居加拿大🤣🔥🔥🔥 pic.twitter.com/Yhz4VqAE8i— TONY™ (@TONYxTWO) 2024 年 11 月 10 日……美国入境移民的另一个故事正在展开,首先是澳大利亚亿万富翁安东尼·普拉特,特朗普获胜后,他将居住在美国。周日,普拉特在领英上写道:上个月,我很荣幸获得美国永久居留绿卡。我们决

我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准!

Are we ready for multi-image reasoning? Launching VHs: The Visual Haystacks benchmark!

人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来互动……

ProcTag:一种面向数据的 AI 方法,用于评估文档指令数据的有效性

ProcTag: A Data-Oriented AI Method that Assesses the Efficacy of Document Instruction Data

有效评估文档指令数据以训练文档视觉问答 (VQA) 中的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 是一项重大挑战。现有方法主要是面向文本的,侧重于指令的文本内容而不是执行过程,这限制了它们全面评估质量和功效的能力。文章 ProcTag:一种评估文档指令数据功效的数据导向型 AI 方法首先出现在 AI Quantum Intelligence 上。

我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准测试!

Are We Ready for Multi-Image Reasoning? Launching VHs: The Visual Haystacks Benchmark!

人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单个图像中的场景并回答相关问题。虽然基础模型的最新进展大大缩小了人类和机器视觉处理之间的差距,但传统的 VQA 仅限于一次推理单个图像,而不是整个视觉数据集合。这种限制在更复杂的场景中带来了挑战。例如,辨别医学图像集合中的模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化、分析大型艺术收藏中的主题元素或从零售监控录像中了解消费者行为等挑战。这些场景中的每一个不仅需要对数百或数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了弥补这一差距,本项