源文档的。 此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。 ,2024)。 044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document. 尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。 此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。 060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。 ,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效? 069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。。此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。,2024)。044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document.尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效?069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。071在我们的方法中,大型视觉模型072(VLM)处理单个或多个检索的文档图像,不仅为074产生了对074用户查询的答案,而且还返回了075框架内的相关区域内的相关区域。076如图1所示,此方法通过视觉上指示文档中的确切078位置来启用di-077 rect归因,从而允许用户在080原始上下文中快速检查生成答案的原始上下文中的支持证据。VLMS 081不受文档格式或渲染的限制,082
背景路易体痴呆 (DLB) 和阿尔茨海默病 (AD) 是老年人中两种常见的神经退行性疾病。这两种疾病都与大脑中蛋白质的异常沉积有关,它们的诊断具有挑战性,尤其是在区分它们方面,因为它们在早期阶段表现出相似的症状。脑部 MRI 提供了脑结构的详细图像,可以识别与神经退行性疾病相关的结构变化。深度学习在分析这些图像方面显示出巨大的潜力,可以实现准确的预测和解释。它的核心是最近出现的大规模预训练视觉语言模型 (VLM),由于其可泛化的视觉和文本表示,它们已经表现出非凡的性能。
摘要:人类的交流长期以来一直依赖视觉媒体进行交互,并通过访问视觉数据的电子设备来促进。传统上,这种交换是单向的,受到基于文本的查询的约束。但是,人类 - 计算机互动的进步已经引入了诸如逆向图像搜索和大语言模型(LLM)之类的技术,从而使文本和视觉查询既可以进行。这些创新在文化遗产应用中特别有价值,例如在城市访问期间将游客与利益识别系统联系起来。本文研究了各种视觉语言模型(VLM)用于文化遗产视觉问题的使用,包括带有GPT-4的Bing的搜索引擎以及Qwen2-VL和Pixtral等开放模型。选择了二十个意大利地标进行研究,包括罗马斗兽场,米兰大教堂和米开朗基罗的大卫。对于每个地标,选择了两张图像:一个来自Wikipedia的图像,另一个来自科学数据库或私人收藏。这些图像输入了每个VLM,并具有有关其内容的文本查询。我们根据其完整性研究了响应的质量,评估了查询中各种细节的影响。此外,我们探讨了语言(英语与意大利语)对模型提供准确答案的能力的影响。我们的发现表明,在多语言数据集中训练的较大模型,例如qwen2-vl和bing+chatgpt-4,在英语和意大利语中都表现更好。令人惊讶的是,Wikimedia数据集的性能没有按预期执行,模型之间的结果有所不同。标志性的地标,例如罗马斗兽场和佛罗伦萨的Duomo,很容易被认可,并提供背景(例如,城市)证明了识别精度。可以在消费者工作站上运行的QWEN2-VL之类的开放模型显示出类似于较大型号的性能。虽然该算法表现出很强的结果,但它们还产生了偶尔的幻觉措施,强调了对文化遗产应用程序的AI系统进行持续改进的必要性。
摘要。视频时间基础旨在确定与给定自然语言查询最相关的未修剪视频中的视频片段。现有的视频时间本地化模型依靠特定的数据集进行培训,数据收集成本很高,但在跨数据库和分发(OOD)设置下表现出较差的概括能力。在本文中,我们提出了一种降雨,以利用预先训练的大型模型的能力,从而利用了EDEO T EMPORAL G圆形(TFVTG)方法。天真的基准是在视频中列举建议,并使用预先训练的视觉语言模型(VLM)根据视觉语言对齐来选择最佳建议。然而,大多数Exting VLM都经过图像文本对或修剪的视频剪辑对训练,这使得(1)抓住关系并区分同一视频中多个事件的时间边界; (2)在视频中理解并敏感事件的动态过渡(从一个事件到另一个事件的过渡)。要解决这些问题,首先,我们建议利用大型语言模型(LLMS)分析查询文本中包含的多个子事件,并分析这些事件之间的时间顺序和关系。其次,我们将一个子事件分为动态过渡和静态状态部分,并使用VLMS提出动态和静态评分功能,以更好地评估事件和描述之间的相关性。代码可在https://github.com/minghangz/tfvtg上找到。最后,对于LLMS提供的每个子事件描述,我们使用VLMS定位与描述最相关的TOP-K提案,并利用LLMS提供的子事件的OR-DER和关系来过滤和集成这些建议。我们的方法在Charades-STA和ActivityNet字幕数据集上的零照片视频基础上实现了最佳性能,而无需进行任何培训,并在跨数据库和OOD设置中展示了更好的通用功能。
分布式约束优化问题(DCOPS)为多代理协调提供了一个强大的框架,但通常依靠劳动力密集的,手动的问题构建。为了打扮,我们介绍了VL-DCOPS,该框架利用大型多模式基础模型(LFMS)自动从视觉和语言指令中生成构造。然后,我们引入了用于求解VL-DCOPS的代理原型:从将某些算法决定委托给LFM的神经符号剂中,向完全神经剂授予完全在LFM上的完全神经药物。我们使用最先进的LLM(大型语言模型)和VLM(VI-SION语言模型)在三个新颖的VL-DCOP任务上评估了这些代理原型,并比较了它们各自的优势和缺点。最后,我们讨论了这项工作如何在DCOP文献中面临更广泛的边界挑战。
大语言模型(LLM)和视觉语言模型(VLM)的突破性进步具有出色的认知能力和推理能力,以了解周围的开放世界,并遵循人类用户的自然语言命令[2,5]。最新的作品探索了人类用户和机器人之间的对话,以使机器人执行多步任务或澄清人类命令的歧义[10,12]。将自然语言命令的哲学应用于人体机器人协作(HRC)时,人类用户可能必须在长期任务的每个步骤中与机器人进行对话[12]。这种情况很少发生在人类的合作中,因为人类能够根据他们对任务的共同知识来跟踪伴侣方面的进步。举例来说,一个工人很少必须与同事进行协作的任务,他们多次合作,而一个友善的人很少在一起制作普通的菜时与厨师交谈。要解决人类机器人协作中的这一挑战,机器人不仅需要对环境,而且还需要有效的人类用户了解。这个
摘要 - 自主驾驶需要能够推理交通代理之间未来互动的能力,并对计划进行明智的评估。本文介绍了Gen-Drive框架,该框架从传统预测和确定性计划框架转变为一代人,然后评估计划范式。该框架采用行为扩散模型作为场景生成器来产生各种可能的未来情况,从而增强了联合交互推理的能力。为了促进决策,我们提出了一个场景评估者(奖励)模型,该模型通过通过VLM援助收集的成对偏好数据训练,从而降低了人类的工作量和增强可扩展性。此外,我们还利用RL微调框架来提高扩散模型的发电质量,从而使其更有效地计划任务。我们对NUPLAN数据集进行了培训和闭环计划测试,结果表明,采用这种生成时代评估策略的表现优于其他基于学习的APCARCHES。此外,微调的生成驾驶政策显示出计划绩效的显着增强。我们进一步证明,与依靠人类设计的奖励相比,利用我们学习的奖励模型进行评估或RL微调导致了更好的计划绩效。项目网站:https://mczhi.github.io/gendrive。
生成艺术是计算机科学领域的持久纪律,传统上采用了各种各样的创造性实现。但是,如果我们在没有辨别的眼睛的情况下查看当前的生成艺术景观,那么技术和方法的范围可能看起来很平坦,只有扩散模型,LLM和它们的洛拉斯才能看到。在这项工作中,我们旨在展示一种较旧的图像生成技术的变体,该技术可以创建引人注目的视觉艺术,而无需依靠训练数据,详尽的计算或狭义的先验。具体来说,我们重新访问了CPPN - 纳特算法,并将其重新处理以更适合当前的生成模型工作流程。而不是进化增强,我们会生成随机瓦特斯 - 图氏图,将它们转换为神经场,并以任意分辨率生成所得图像。我们通过使用离式VLM来获得高质量的样本,以在生成的示例之间进行成对选择。选择了多个回合的图像以进行最终的人类审查。此自动化过程很简单,并允许我们在消费者台式机上快速,轻松地生成12000px x 12000px图像,这种样式不同于公开可用的图像生成模型。
从分子的图形表示中了解化学结构是一项具有挑战性的图像限制任务,它将极大地使以分子为中心的分数发现。分子图像和标题子任务中的变化在图像代表学习和任务建模中都构成了重大挑战。然而,现有的方法仅集中于将分子图像转化为其图形结构的特定字幕任务,即OCSR。 在本文中,我们提出了光学化学结构(OCSU)任务,该任务将OCSR扩展到分子图像字幕从基序级别到分子水平和抽象水平。 我们提出了两种方法,包括基于OCSR的方法和端到端OCSR-无ocsr方法。 拟议的双检查通过针对局部模棱两可的原子的细心功能增强,在现实世界专利和期刊媒介场景上实现了SOTA OCSR性能。 以基于微笑的分子理解方法级联,它可以利用OCSU的特定任务特定模型的功能。 MOL-VL是端到端优化的基于VLM的模型。 OCSU数据集Vis-Chebi20是基于广泛使用的Chebi20数据集构建的,用于培训和评估。 对Vis-Chebi20的广泛实验结果证明了所提出的方法的有效性。 提高OCSR功能可以为基于OCSR的APARCH提供更好的OCSU性能,而Mol-VL的SOTA性能表明了端到端方法的巨大潜力。OCSR。在本文中,我们提出了光学化学结构(OCSU)任务,该任务将OCSR扩展到分子图像字幕从基序级别到分子水平和抽象水平。我们提出了两种方法,包括基于OCSR的方法和端到端OCSR-无ocsr方法。拟议的双检查通过针对局部模棱两可的原子的细心功能增强,在现实世界专利和期刊媒介场景上实现了SOTA OCSR性能。以基于微笑的分子理解方法级联,它可以利用OCSU的特定任务特定模型的功能。MOL-VL是端到端优化的基于VLM的模型。OCSU数据集Vis-Chebi20是基于广泛使用的Chebi20数据集构建的,用于培训和评估。对Vis-Chebi20的广泛实验结果证明了所提出的方法的有效性。提高OCSR功能可以为基于OCSR的APARCH提供更好的OCSU性能,而Mol-VL的SOTA性能表明了端到端方法的巨大潜力。
视觉提问(VQA)是用户体验的关键,尤其是在改善视觉语言模型(VLMS)的概括能力之后。但在实际设置中使用标准化框架评估应用程序要求的VLM仍然具有挑战性。本文旨在使用端到端框架解决该问题。我们提出VQA360 - 一种源自估计的VQA基准测试的新型数据集,该数据集用任务类型,应用程序域和知识类型注释,以进行全面评估。我们还引入了Goeval,这是一种使用GPT-4O开发的多模式评估度量,与Human判断相关系数为56.71%。我们使用状态VLMS的实验表明,没有任何单个模型都普遍擅长,因此,将正确的选择成为关键的设计决策。专有模型(例如Gemini-1.5-Pro和GPT-4O-Mini)通常优于其他模型,但是诸如InternVL-2-8B和COGVLM-2-LALAMA-3-19B之类的开源模型也表现出竞争优势,同时提供了其他优势。我们的框架工作也可以扩展到其他任务1。