现有的人类对象互动(HOI)检测方法已经引入了零拍的学习技术来认可看不见的相互作用,但是它们在理解上下文信息和全面的重新构成方面仍然存在局限性。为了克服这些局限性,我们提出了一个新型的HOI学习框架ContexThoi,它是一种效率的上下文HOI探测器,以增强上下文的理解和零拍的推理能力。所提出的contexthoi的主要贡献是一种新颖的上下文挖掘解码器和强大的互动推理大语言模型(LLM)。上下文挖掘解码器旨在从预先训练的视觉模型中提取语言上下文信息。基于提取的上下文信息,提出的相互作用推理LLM通过利用丰富的语言知识进一步增强了零拍的推理能力。广泛的评估表明,我们所提出的框架在HICO-DET和SWIG-HOI数据集上优于现有的零射击方法,在未看到交互的情况下高达19.34%的映射。
•视觉:图像分类,单视3D建模和自主驾驶(SLAM)•语言:语言生成和零拍的大型语言建模•科学的AI:用于物理模拟的数据驱动方法(替代模型,操作员学习,操作员学习),时间序列学习(时间序列学习)
摘要。多模式模型(例如剪辑)具有显着的零拍传输功能,使其在不断学习任务方面非常有效。然而,这种优势因灾难性遗忘而严重损害了这一优势,这破坏了这些模型的宝贵零击学习。现有方法主要集中于保存零拍的功能,但在完全利用多模式模型中固有的丰富模态信息方面通常不足。在本文中,我们提出了一种策略,以增强零射击转移能力和对新数据分布的适应性。我们引入了一种新型的基于图的多模式接近蒸馏方法,该方法保留了视觉和文本方式的内部和模式间信息。通过样本重新加权机制进一步增强了这种方法,并动态调整教师对每个样本的影响。实验结果证明了对现有方法的有很大改善,这说明了所提出的方法在持续学习领域的有效性。代码可在github.com/myz--ah/awoforget上找到。
摘要 - 在视觉场景理解的领域,深层神经网络在各种核心任务(例如细分,跟踪和检测)方面取得了令人印象深刻的进步。但是,大多数方法都基于封闭式假设,这意味着该模型只能识别培训集中存在的预定类别。最近,由于视觉语言预训练的快速进步,开发了开放的词汇环境。这些新方法旨在定位和识别带注释的标签空间以外的类别。与弱监督和零拍的设置相比,开放的词汇方法更一般,实用和有效。本文彻底回顾了开放式学习,总结和分析了该领域的最新发展。特别是,我们首先将开放性词汇学习与类似的概念并置,例如零拍学习,开放式识别和分布外检测。随后,我们检查了分割和检测领域内的几个相关任务,涵盖了长尾问题,很少射击和零照片设置。作为我们方法调查的基础,我们首先阐明了在近距离场景中的检测和分割的基本原理。接下来,我们研究了采用开放词汇学习的各种环境,这些环境指出了反复出现的设计元素和中心主题。这是对常用数据集和基准中最新检测和分割方法的比较分析。我们的
无监督的域改编(UDA)试图通过利用标有标记的源数据集并将其知识传输到类似但不同的目标数据集的标记数据来超越标记数据。同时,当前视觉语言模型表现出显着的零拍词前字典能力。在这项工作中,我们将通过UDA获得的知识与视觉模型的固有知识相结合。我们引入了一种强大的指导学习计划,该计划采用零拍的预测来帮助源数据集和目标数据集对齐。对于强的指南,我们使用目标数据集的最自信的样本扩展了源数据集。此外,我们采用知识蒸馏损失作为弱指导。强大的指导使用硬标签,但仅应用于目标数据集中最自信的预测。相反,弱指南用于整个数据集,但使用软标签。薄弱的指导被用作知识蒸馏损失,并以(调整后的)零射击预测。我们表明,我们的方法从及时的视觉模型适应技术中得到了补充和好处。我们对三个基准(OfficeHome,Visda和Domainnet)进行实验和消融研究,表现优于最先进的方法。我们的消融研究进一步证明了我们算法的不同组合的贡献。
1。H. F. Garc´ıa,O。Nieto,J。Salamon,B。Pardo和P. Seetharaman。 sketch2sound:通过随时间变化的信号和声音模仿,可控的音频发生。 ICASSP,2025 2。 H. Flores Garcia,P。Seetharaman,R。Kumar和B. Pardo。 Vampnet:通过掩盖的声学令牌建模发电。 在Ismir,2023 3。 D. Flores Garc´ıa,H。FloresGarc´ıa和M. Riondato。 clavenet:通过数据增强生成非洲古巴鼓模式。 在第19届国际音频会议论文集中主要是:Sonic Cultures中的剥削,AM '24,第355-361页,纽约,纽约,美国,2024年。 计算机协会4。 H. Flores Garcia,P。O'Reilly,A。Aguilar,C。Benetatos,Z。Duan和B. Pardo。 竖琴:通过托管,异步,远程处理深入学习DAW。 在第七届机器学习研讨会中,在神经2023,2023 5。上 Y. Wang,H。F. Garc´ıa和J. Choi。 音乐信息检索的几次射击和零拍学习。 在第23届国际音乐信息检索会议上,2022年H. F. Garc´ıa,O。Nieto,J。Salamon,B。Pardo和P. Seetharaman。sketch2sound:通过随时间变化的信号和声音模仿,可控的音频发生。ICASSP,2025 2。H. Flores Garcia,P。Seetharaman,R。Kumar和B. Pardo。Vampnet:通过掩盖的声学令牌建模发电。在Ismir,2023 3。D. Flores Garc´ıa,H。FloresGarc´ıa和M. Riondato。clavenet:通过数据增强生成非洲古巴鼓模式。在第19届国际音频会议论文集中主要是:Sonic Cultures中的剥削,AM '24,第355-361页,纽约,纽约,美国,2024年。计算机协会4。H. Flores Garcia,P。O'Reilly,A。Aguilar,C。Benetatos,Z。Duan和B. Pardo。竖琴:通过托管,异步,远程处理深入学习DAW。在第七届机器学习研讨会中,在神经2023,2023 5。Y. Wang,H。F. Garc´ıa和J. Choi。 音乐信息检索的几次射击和零拍学习。 在第23届国际音乐信息检索会议上,2022年Y. Wang,H。F. Garc´ıa和J. Choi。音乐信息检索的几次射击和零拍学习。在第23届国际音乐信息检索会议上,2022年
最新的性能。虽然鉴定的视觉模型(例如对比语言图像预训练(剪辑))通过在共同空间中学习视觉语言概念来实现有希望的零射击性能,但它们之间的自然层次结构仍然没有探索。在这项工作中,我们提出了Poinclip:基于庞加利的几何形状模型,该模型研究了两者之间的层次关系,以学习联合文本图像表示。我们将Poinclip的性能与夹模型的性能进行比较,以进行零拍图像分类和检索任务,以证明所提出的方法的功效。
本文研究了使用大型语言模型(LLM)从全长材料科学研究论文中提取聚合物纳米复合材料(PNC)的样本清单。挑战在于PNC样品的复杂性质,这些属性具有散布在整个文本中的许多属性。关于PNCS的注释详细信息的复杂性限制了数据的可用性,从而使文档级别级别的关系提取技术不切实际,这是由于综合命名实体的挑战跨度跨度。为了解决这个问题,我们为此任务介绍了一种新的基准和评估技术,并以零拍的方式探索了不同的提示策略。我们还结合了提高性能的自我一致性。我们的发现表明,即使是先进的LLMS陷入困境,也可以从文章中提取所有样本。最后,我们分析了此过程中遇到的错误,将它们归类为三个主要挑战,并讨论了未来研究的潜在策略以克服它们。
大型语言模型(LLMS)正在彻底改变AI,并在组合模块中表现出出色的推理能力,以执行基于图像的复杂任务。在本文中,我们提出了一种方法,该方法通过LLMS的图像扩展了程序组成的概念,旨在将它们整合到体现的代理中。具体来说,通过将PointGoal Navigation模型视为指导代理商通过世界的基础原始模型,我们幻想了单个模型如何无需其他培训即可解决不同的任务。我们将原始成分委托给LLM,只有少数在提示的示例。我们评估了三个体现的AI任务的方法:对象目标导航,实例图像目标导航和体现的问题答案,证明了竞争性结果,而没有任何特定的微调和在零拍情上的效力。