处理VAD的最常见方法是单级学习[1],它仅在训练正常数据上训练异常检测模型,即没有异常,执行不同的辅助任务,例如重建和预测。主要的假设是对正常数据训练,模型无法正确重建或预测包含异常的视频帧。但是,此类方法只有在相当简单的数据集上表现良好,在这些数据集上可以通过视觉外观或运动来定义异常,并且在异常事件中包含高级语义信息(远程轨迹,个体或对象之间的相互作用)的视频上失败。存在其他方法来处理VAD,例如弱监督[2]或少量学习方法[3]。此类方法在培训中使用了一些异常示例,这些示例有助于捕获更复杂的异常,需要了解高级语义信息[4,5]。最近,视觉语言模型[6,7]由于能够处理图像和文本的能力而获得了很多知名度。他们的应用程序包括视觉问答(VQA),图像字幕和文本对图像搜索。在VAD中使用此类模型的优点在于它们不仅检测到视频异常,而且提供了它们的描述,这有助于更好地理解和解释发生异常[8]。在这次实习中,我们将使用VAD方法来处理需要通过在培训中使用一些异常样本来处理需要高级语义信息的异常。除了异常检测任务外,我们还将通过利用VLM模型来解决视频异常理解的问题。
首选经验:实验室高度重视具有以下一项或多种经验的候选人: - 以人为本的应用:熟悉性在医疗保健,教育,神经企业和/或辅助技术等领域应用ML。生理信号处理的先前经验(例如EMG,EEG,ECG)是一个优势。熟悉HCI原理和框架,特别是在进行可用性研究和设计以用户为中心的AI系统的经验。- 辅助 /协作机器人技术:对开发用于康复,辅助技术或神经疾病的机器人系统的兴趣,利用机器学习来提高用户交互中的精度和适应性。了解在共享工作空间中部署机器人的知识,重点是人类机器人团队的安全,合作和效率。- 多模式ML:使用不同数据类型的经验,例如视觉,语音,图像和生理信号。将多种模式集成以构建强大的AI系统的经验是一个优势 - 跨学科应用程序:利用LLM / VLM用于跨学科问题,例如:AI驱动的科学发现,自动化假设在金融 /自然科学 /物理科学中自动化假设,增强了复杂组织设置中的协作协作。
估计相互作用的人类的3D姿势和形状以及来自单个野外图像的物体对于混合现实和机器人技术很重要。由于阻塞,深度歧义和广泛变化的物体形状,这具有挑战性。现有工作通过利用身体和物体上的表面接触点并使用这些来指导3D重建来应对这些挑战。不幸的是,获得3D接触注释需要昂贵的3D地面真相或耗时的手动标签。,根据大规模获取培训数据是一个挑战。我们通过开发一种称为InteractVLM的新型模型来解决此问题,该模型利用大型视觉语言模型(VLM)的广泛视觉知识。问题是,这些大型模型并未直接“理解” 3D人类对象接触。为了解决这个问题,我们利用了3D人类对象交互的现有小型数据集来微调大型模型以了解接触。但是,这是非平凡的,因为这种模型仅在2D中“仅”,而触点是继承的3D。因此,我们引入了一个新颖的“ RenderLecalize-Lift”模块,该模块:(1)通过多视图渲染将3D主体和物体表面嵌入2D空间,(2)训练一种新型的多视图本地化模型(MV-LOC),以推断2D,
大语言模型(LLM)和视觉语言模型(VLM)的最新突破已经展示了有希望的近视,以执行各种任务。此类模型通常在大型数据集上进行培训,其中包括数十个具有多种任务的图像文本对。但是,它们在特定于任务域(例如放射学)上的性能仍然不足。尽管最近很少有作品探讨了基于LLMS的对话医学模型,但它们主要集中于基于文本的分析。在本文中,我们介绍了Xraygpt,这是一种会话医学视觉语言(VLMS)模型,可以分析和回答有关胸部二世图的开放性问题。具体来说,我们将两个医学视觉编码器与微调的LLM保持一致,以实现视觉对话能力,以对X光片和医学知识的理解为基础。为了改善胸部X光片数据的对齐,我们从自由文本放射学报告中生成了217K互动和高质量的摘要。进行了广泛的实验,以验证XRaygpt的优点。为进行专家评估,经过认证的医生在测试子集上评估了我们的XRaygpt的产出,结果表明,超过70%的响应是科学准确的,平均得分为4/5。我们的代码和模型可在以下网址提供:https://github.com/mbzuai-oryx/xraygpt
随着变压器和视觉模型(VLM)的出现,例如剪辑,微调大型预培训模型最近已成为持续学习的普遍策略。这导致发展了许多促使策略以适应基于变形金刚的模型而不会引起灾难性遗忘。但是,这些策略通常会损害预先训练的剪辑模型的原始零射击功能,并难以适应明显偏离预训练数据的域。在这项工作中,我们提出了持续的生成培训,以进行增量及时学习,这是一种简单而新颖的方法,可以减轻遗忘,同时调整剪辑。简而言之,我们采用各种自动编码器(VAE)来学习视觉编码器嵌入空间内的类调节分布。然后,我们利用这些分布来采样新的合成视觉嵌入式,并在随后的任务中训练相应的特定类文本提示。通过对不同领域的广泛实验,我们表明,这种生成的重播方法可以适应新任务,同时改善零射击功能,并使用针对CL方案量身定制的新型度量标准进行了评估。值得注意的是,进一步的分析表明,我们的方法可以通过关节及时调整弥合差距。该代码库可从https://github.com/ aimagelab/mammoth获得。
摘要。预先训练的视觉模型(VLMS)的出色概括能力使下游零镜头任务的微调VLM是流行的选择。尽管在基础类的专业性中取得了令人鼓舞的表现,但大多数现有的微调方法都遭受了新颖类的特征混乱,导致不满意的可转移性。为了解决这个问题,我们提出了一种称为基于及时的变分适配器(PVA)的分裂和争议方法,该方法通过分开基础和新样本来明确减少预测偏差。指定,我们设计了两个具有可学习的文本令牌的变异适配器,以使共享潜在空间中每种模态的潜在表示。一旦受过训练,我们就可以使用潜在特征的相似性度量,即将混乱任务转换为两个独立的样本(一个用于基本类别,另一个用于新颖的类别)。此外,为了提高新颖类的可传递性,我们通过残留连接进一步完善了具有全局特征的学习适配器的输出特征。我们对广义零射门学习和交叉传输的学习进行了广泛的实验,以证明我们的方法的优势,并在四个流行的基准上建立新的最先进的方法。
随着变压器和视觉模型(VLM)的出现,例如剪辑,微调大型预培训模型最近已成为持续学习的普遍策略。这导致发展了许多促使策略以适应基于变形金刚的模型而不会引起灾难性遗忘。但是,这些策略通常会损害预先训练的剪辑模型的原始零射击功能,并难以适应明显偏离预训练数据的域。在这项工作中,我们提出了持续的生成培训,以进行增量及时学习,这是一种简单而新颖的方法,可以减轻遗忘,同时调整剪辑。简而言之,我们采用各种自动编码器(VAE)来学习视觉编码器嵌入空间内的类调节分布。然后,我们利用这些分布来采样新的合成视觉嵌入式,并在随后的任务中训练相应的特定类文本提示。通过对不同领域的广泛实验,我们表明,这种生成的重播方法可以适应新任务,同时改善了零发功能,并使用针对CL方案量身定制的新型度量标准进行了评估。值得注意的是,进一步的分析表明,我们的方法可以通过关节及时调整弥合差距。该代码库可从https://github.com/ aimagelab/mammoth获得。
学习通才体现的代理,能够解决不同领域中的多种任务是一个长期存在的问题。强化学习(RL)很难扩大规模,因为它需要为每个任务进行复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。当前的基础视觉模型(VLMS)通常需要进行微调或其他适应性,这是由于显着的域间隙在实施情况下被采用的。但是,此类域中缺乏多模式数据代表了开发用于具体应用的基础模型的障碍。在这项工作中,我们通过介绍多模式基础世界模型来克服这些问题,能够将基础VLM的表示和对齐为RL的潜在生成世界模型的潜在空间,而无需任何语言注释。最终的代理学习框架GenRL允许人们通过视觉和/或语言提示指定任务,将其扎根在体现的域的动态中,并学习想象中的相应行为。通过机车和操纵域中的大规模多任务基准测试评估,GenRL可以通过语言和视觉提示来实现多任务概括。此外,通过引入无数据的政策学习策略,我们的方法为使用生成世界模型的基础政策学习奠定了基础。
下一代机器人应结合其他领域的想法,例如计算机视觉,自然语言处理,机器学习和许多其他领域,因为封闭环境需要在复杂的真实环境中基于多模式输入来处理复杂的任务。这个研讨会的计划着重于机器人学习的生成模型,该模型在于AI和机器人技术的重要和基本领域。基于学习的机器人技术方法已在各种任务中实现了高成功率和概括能力,例如操纵,导航,大满贯,场景重建,原则和物理建模。但是,机器人学习面临着几个挑战,包括数据收集的昂贵成本以及在不同任务和方案中的可转移性较弱。受到计算机视觉和自然语言处理的重大进展的启发,已经努力将生成模型与机器人学习结合在一起,以应对上述挑战,例如综合高质量数据,并将生成框架纳入表示和政策学习。此外,预先训练的大型语言模型(LLM),视觉语言模型(VLM)和视觉语言 - 行动(VLA)模型适用于各种下游任务,以充分利用丰富的常识知识。这种渐进发展使机器人学习框架可以应用于复杂而多样化的现实世界任务。
我们提出了3D空间多模式内存(M3),这是一种多模式存储系统,旨在通过视频源保留有关中型静态场景的信息,以供视觉感知。通过将3D高斯脱衣技术与基础模型集成在一起,M3构建了能够跨粒度呈现特征表示的多模式内存,其中包括广泛的知识。在我们的探索中,我们在以前的特征劈叉上确定了两个关键挑战:(1)在每个高斯原始原始原始原始的存储高维纤维中的计算限制,以及(2)蒸馏功能和基础模型之间的未对准或信息损失。为了解决这些挑战,我们提出了M3的主要场景组件和高斯记忆注意的关键组成部分,从而实现了有效的训练和推理。为了验证M3,我们对特征相似性和下游任务以及定性可视化进行了全面的定量评估,以突出显示高斯记忆注意的像素痕迹。我们的方法包括各种基础模型,包括视觉模型(VLM),感知模型以及大型多模式和语言模型(LMMS/LLMS)。此外,为了演示现实世界的适用性,我们在四足机器人的室内场景中部署了M3的功能字段。值得注意的是,我们声称M3是在3D功能蒸馏中挑战核心压缩挑战的第一项工作。