tencent Robotics X,中国深圳05/2024 - 10/2024 Intelligent Agent Group研究实习生开发了一种使用具有低级控制政策的VLM桥接高级计划的方法。VLM指导的轨迹条件扩散政策已提交给ICRA2025。Avanade&UCL,英国伦敦10/2020 - 05/2021软件工程师开发并带领三人组成的团队创建了一个AI-Driention移动应用程序,旨在促进回收实践。该应用程序标识可回收项目,并通过奖励系统激励回收利用。Citrix Systems,中国北京07/2020 - 09/2020软件工程师Camp Camp carpus Star&Silver Prive开发了一种用于监视和管理虚拟机弹出窗口的应用程序,从而提高了虚拟化平台的安全性和操作效率。
为了我的长期研究目标,我一直致力于在动态现实世界环境中发展体现研究兴趣的IED AI系统和多模式基础模型(例如VLM,MLLM,Di usion模型)的终身适应性。这些系统的目的是可靠,改进,互动和组成,以应对实际,现实世界中的挑战,以更好地了解人类的行为并显着影响我们的日常生活。我的研究兴趣包括以下主题:
摘要。体现的场景理解是自主代理人感知,解释和应对开放驾驶场景的基石。这种理解通常建立在视觉模型(VLM)上。尽管如此,现有的VLM仅限于2D领域,没有空间意识和长匹马外推过程。我们重新审视了自主驾驶和适当的专栏的关键方面。特此,我们介绍了体现语言模型(ELM),这是一个针对代理商量身定制的综合框架,该框架对具有较大空间和暂时的跨度的驾驶场景的理解。ELM结合了空间感知的预训练,以赋予代理具有强大的空间定位功能。此外,该模型还采用时间感知的令牌选择来准确询问时间提示。我们可以在重新重新的多面基准上实现Elm,并且在各个方面都超过了先前的最新方法。所有代码,数据和模型均可在https://github.com/opendrivelab/elm上访问。
尽管视觉模型(VLMS)具有多功能视觉效果(VLMS)的功能,但在现有的VLM框架内仍存在两个实质性挑战:(1)缺乏预读和视觉指导调谐方面的任务多样性,以及(2)注释错误和偏见GPT-4综合教学指导性的指导性数据。这两种挑战都导致了诸如不良的普遍性,幻觉和灾难性遗忘之类的问题。为了应对这些挑战,我们构建了v Ision -f LAN,这是迄今为止最多样化的视觉指导调整数据集,包括187个不同的任务和1,664,261个实例,来自学术数据集,每个任务都伴随着专家写作的指导。此外,我们提出了一个两阶段的指令调整框架,其中首先在V Ision -F LAN上对VLM进行了填充,并在GPT-4合成数据上进一步调整。我们发现这个两阶段的调谐框架显着超过了传统的单阶段视觉教学调音框架,并在广泛的多模式评估基准中实现了最新的效果。最后,我们进行了深入的分析以了解视觉指导的调整,我们的发现表明:(1)GPT-4合成数据并不能基本上增强VLMS的功能,而是模型对模型对人类偏爱格式的响应; (2)最小数量(例如1,000)GPT-4合成数据可以有效地使VLM响应与人类偏爱相一致; (3)视觉指导调整主要帮助大语言模型(LLMS)了解视觉特征。我们的数据集和模型可在https://github.com/vt-nlp/ vision-flan上公开获取。
开发可以理解和遵循语言指示的代理商对于有效且可靠的人类协作至关重要。最近的方法使用不经常的环境奖励的强化学习来训练这些代理,这给环境设计师带来了重大负担,以创建语言条件条件的奖励功能。随着环境和指示的复杂性,制作这种奖励功能变得越来越不切实际。为了解决这个问题,我们介绍了V-TIFA,这是一种新型方法,该方法通过利用Vision语言模型(VLMS)的反馈来训练跟随剂。V-TIFA的核心思想是查询VLM,根据语言的结构对整个轨迹进行评分,并使用结果评分直接训练代理。与先前的VLM奖励生成方法不同,V-TIFA不需要手动制作的任务规范,使代理商能够从各种自然语言教学中学习。在体现环境中进行的广泛实验表明,在相同条件下,V-TIFA优于现有的奖励生成方法。
Guest Editors Xiang Li, King Abdullah University of Science and Technology (xiangli92@ieee.org) Xiao Xiang Zhu, Technical University of Munich (xiaoxiang.zhu@tum.de) Gui-Song Xia, Wuhan University (guisong.xia@whu.edu.cn) Sherrie Wang, Massachusetts Institute of Technology (sherwang@mit.edu)武汉大学(balz@whu.edu.cn)蒂莫·巴尔兹(Timo Balz),阿卜杜拉国王科学技术大学(Mohamed.elhaseiny@kaust.edu.sa)Mohamed Elhoseiny,远程传感的视觉语言模型(VLMS)。vlms代表了计算机视觉和自然语言处理技术的开创性整合,旨在通过对视觉和文本信息的更细微的理解来增强与RS数据的解释和互动。通过弥合视觉识别和语义理解之间的差距,VLM提供了一个全面的框架,通过实现复杂的语义分析和自然语言描述功能,超越了传统的视觉任务。更重要的是,通过将视觉模型与LLM相结合,VLM可以利用验证的LLMS中的先验知识来解决复杂的推理任务。
由于大规模的图像对比训练,预训练的视觉语言模型(VLM)(例如剪辑)表现出优越的开放式摄入识别能力。大多数存在的开放式摄制对象检测器都试图利用预训练的VLM来获得生成表示。f-Vit使用预先训练的视觉编码器作为骨干网,并在训练过程中冻结它。但是,冷冻的骨干线不能从标记的数据中受益,以增强表示形式。因此,我们提出了一种新型的两种分支骨干网络设计,称为VIT-FEATURE-调制多规模卷积网络(VMCNET)。vmcnet由可训练的卷积分支,冷冻预训练的VIT分支和特征调制模块组成。可训练的CNN分支可以通过标记的数据进行优化,而冷冻的预训练的VIT分支可以保持大规模预训练的表示能力。然后,提出的特征调制模块可以通过VIT分支的代表来调节多尺度CNN特征。使用拟议的混合结构,检测器更有可能发现新型类别。在两个流行的基准测试中进行了评估,我们的方法提高了新型类别的检测性能,并构成了基线。在OV-Coco上,该提出的方法以VIT-B/16和48.5 AP Novel 50具有VIT-L/14的AP Nove 50实现44.3 AP Novel 50。在OV-LVIS上,具有VIT-B/16和VIT-L/14的VMCNET达到27.8和38.4地图r。
在应用程序开发过程中,Lookout 团队参与了多次人工智能原则评审,并进行了对抗性公平性测试。该团队采用了 Google DeepMind 视觉语言模型 (VLM),该模型针对此用例进行了高度定制,并得到了来自 BLV 人群以及跨性别和非二元性别者的多轮反馈。VLM 使人们能够就图像提出自然语言问题。新的 Lookout 问答功能允许用户超越字幕,询问对他们来说最重要的图像细节。此功能允许团队提供不带感知性别的字幕,但如果用户询问有关某人性别的问题,该模型可以使用来自该人外表的线索提供感知性别的最佳猜测。通过这种方式,Lookout 可以避免在不需要时提供性别描述,从而减少潜在的性别错误,但应用程序可以在用户认为这些信息对他们有用时提供这些信息。Lookout 团队对 BLV 和非二元性别的最终用户测试了这种方法,发现这些用户认为这种方法既有用又尊重。
大型语言模型(LLM)和视觉语言模型(VLM)在各种任务和域中都具有出色的性能。尽管有希望,空间理解和推理(人类认知的基本组成部分)被认为是探索的。我们提出了Spatialeval,这是一种新颖的基准,涵盖了空间推理的各个方面,例如关系理解,导航和计数。我们对竞争语言和视觉语言模型进行了全面评估。我们的发现揭示了文献中忽略的几种违反直觉的见解:(1)空间推理提出了重大挑战,竞争模型可以落后于随机猜测; (2)尽管有其他视觉输入,但与LLM的同行相比,VLM的表现经常不足; (3)当提供文本和视觉信息时,如果提供了足够的文本线索,多模式的语言模型就会减少视觉信息。此外,我们证明了视觉和文本之间的冗余可以显着提高模型性能。我们希望我们的研究能够为多模式模型的发展提供信息,以改善空间智能并通过人类智能进一步缩小差距。我们的代码可在https://github.com/jiayuww/spatialeval上找到。
API Application Programming Interface BC Behavior Cloning BERT Bidirectional Encoder Representations from Transformers CaP Code - as - policies GPT Generative Pre - trained Transformer LLM Large Language Model LMM Large Multimodal Model LMP Language Model generated Programs PaLI Pathways Language and Images PaLM Pathways Language Model RL Reinforcement Learning RT Robotics Transformer ViT Vision Transformer VLA Vision - Language - Action VLM Visual Language Model VQA Visual问题回答