Loading...
机构名称:
¥ 2.0

视觉问题回答(VQA)是一项重要的视觉语言任务,非常适用于各种现实世界中的情况。然而,它提出了重大挑战,可以理解自然语言的用户查询,从图像或视频中检索信息,以及提供自然语言的准确响应。在大型语言模型(LLMS)的帮助下,出现了许多解决方案。但是,其中许多解决方案都取决于多模式模型,并且需要进行微调的大量计算成本。因此,在限制内建立VQA系统提出了一个明显的挑战。为了解决此问题,我们提出了利用文本信息作为渠道的方法,以链接视觉和文本功能,从而无需端到端培训就可以零射击VQA任务。我们的模型探讨了两种不同的方法:1)使用检测模型和字幕模型在图像和文本之间建立连接。在此阶段,我们降低了利用文本表示的可行性,而不是向量连接两个域,从而识别减轻幻觉问题的方法。2)将IMG2LLM模型和随机字幕模型组合在一起,以向模型提供LOCAL和一般信息并评估其性能。此外,我们还引入了一个用于VQA评估的新指标,结合了语义理解,而不是严格匹配,以确保评估过程中的公平性。代码可在https://github.com/nattapolchoo/visual-question-andwering-using-llm上找到。

使用大语言模型回答的视觉问题

使用大语言模型回答的视觉问题PDF文件第1页

使用大语言模型回答的视觉问题PDF文件第2页

使用大语言模型回答的视觉问题PDF文件第3页

使用大语言模型回答的视觉问题PDF文件第4页

使用大语言模型回答的视觉问题PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥13.0
1900 年
¥12.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2024 年
¥10.0