模态领域信息情报检索---XiaoMi-AI

2024年10月23日 00:00

CtrlSynth：可控图像文本合成，实现数据高效的多模态学习

CtrlSynth: Controllable Image-Text Synthesis for Data-Efficient Multimodal Learning

预训练稳健的视觉或多模态基础模型（例如 CLIP）依赖于大规模数据集，这些数据集可能存在噪声、可能错位且具有长尾分布。先前的研究已显示出通过生成合成样本来扩充数据集的良好结果。但是，它们仅支持特定领域的临时用例（例如，仅支持图像或文本，但不能同时支持两者），并且由于缺乏对合成过程的细粒度控制，数据多样性有限。在本文中，我们设计了一个可控的图像文本合成管道 CtrlSynth，用于数据高效且稳健的……

AI新闻

2024年9月27日 09:12

Molmo 开放最先进的多模态 AI 模型

Molmo öppna toppmoderna multimodala AI-modeller

Molmo 是一系列先进且开放的人工智能模型，可以同时处理多种类型的数据。这些型号的性能优于市场上许多较大的型号。与传统的多模式系统不同，Molmo 可以与物理和虚拟环境交互。这要归功于使用 Molmo 后开放的最先进的多模式 AI 模型收集的独特数据集，该模型首次出现在 AI 新闻中。

None

2024年9月13日 13:26

研究人员模拟新型金属过滤 VCSEL 模态控制

Researchers simulate novel metal-filtered VCSEL modal control

由中国科学院长春光学精密机械与物理研究所的研究人员领导的一项研究揭示了一种新型金属介电薄膜模式滤波器结构，可以灵活调节垂直腔面发射激光器（VCSEL）中的横模，这表明金属光圈在增强VCSEL内模式控制方面的潜力。该研究发表在《传感器》杂志上。

None

2024年9月12日 17:50

动手模仿学习：从行为克隆到多模态模仿学习

Hands-On Imitation Learning: From Behavior Cloning to Multi-Modal Imitation Learning

最突出的模仿学习方法概述，并在网格环境中进行测试照片由 Possessed Photography 在 Unsplash 上拍摄强化学习是机器学习的一个分支，它涉及通过标量信号（奖励）的引导进行学习；与监督学习相反，监督学习需要目标变量的完整标签。一个直观的例子来解释强化学习，可以用一所有两个班级的学校来解释，这两个班级有两种类型的测试。第一节课解决了测试并获得了完全正确的答案（监督学习：SL）。第二节课解决了测试并只获得了每个问题的成绩（强化学习：RL）。在第一种情况下，学生似乎更容易学习正确的答案并记住它们。在第二节课中，任务更难，因为他们只能通过反复试验来学习。然而，它们的学习更加稳健，

亚马逊云科技 _机器学习

2024年9月11日 00:13

Genomics England 使用 Amazon SageMaker 根据多模态数据预测癌症亚型和患者生存率

Genomics England uses Amazon SageMaker to predict cancer subtypes and patient survival from multi-modal data

在这篇文章中，我们详细介绍了我们在创建两个概念验证 (PoC) 练习方面的合作，这些练习围绕多模态机器学习进行生存分析和癌症亚型分析，使用基因组（基因表达、突变和拷贝数变异数据）和成像（组织病理学幻灯片）数据。我们提供了关于使用 Amazon SageMaker 在 AWS 上构建复杂 ML 工作流的可解释性、稳健性和最佳实践的见解。这些多模态管道正在 Genomics England 癌症队列中使用，以增强我们对癌症生物标志物和生物学的理解。

Unite.AI

2024年9月10日 18:25

EAGLE：探索使用混合编码器的多模态大型语言模型的设计空间

EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强的视觉感知可显著减少幻觉并提高分辨率敏感任务（例如光学字符识别和文档分析）的性能。最近的几个 MLLM 通过利用视觉编码器的混合来实现这一点。尽管 […]EAGLE：探索使用混合编码器的多模态大型语言模型的设计空间首先出现在 Unite.AI 上。

Clarifai博客 | 实际应用中的人工智能

2024年8月13日 16:39

多模态评估基准概况

The Landscape of Multimodal Evaluation Benchmarks

探索十个多模态数据集和基准的主要特征，以评估多模态模型的性能。

AI量子智能

2024年7月16日 09:56

Google DeepMind 研究人员展示 Mobility VLA：使用长上下文 VLM 和拓扑图进行多模态指令导航

Google DeepMind Researchers Present Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

在过去的几十年里，传感器、人工智能和处理能力的技术进步将机器人导航推向了新的高度。为了将机器人技术提升到一个新的水平，并使它们成为我们生活中的常规部分，许多研究建议将 ObjNav 和 VLN 的自然语言空间转移到多模态空间，以便机器人 Google DeepMind 研究人员展示了 Mobility VLA：具有长上下文 VLM 和拓扑图的多模态指令导航，首先出现在 AI Quantum Intelligence 上。

AI新闻

2024年7月10日 11:09

SenseTime SenseNova 5o 中国首款实时多模态模型

SenseTime SenseNova 5o Kinas första realtids-multimodella modell

商汤科技在上海举行的世界人工智能大会上发布了突破性的人工智能模型SenseNova 5o和SenseNova 5.5。 SenseNova 5o是中国第一个实时多模态模型，可以处理各种数据类型进行交互对话，提高了数学推理、英语和跟随提示的能力。更新后的SenseNova 5.5大型模型提供了经济高效的近边缘部署，并已被[…]采用。商汤科技SenseNova 5o中国首款实时多模型首次出现在AI新闻上。

Apple机器学习研究

2024年7月8日 00:00

MIA-Bench：面向多模态 LLM 评估后的更好指导

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们推出了 MIA-Bench，这是一种新的基准，旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成，每个对都经过精心设计，旨在挑战模型对分层指令的遵守情况，从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异，突出了指令保真度方面需要改进的地方。此外，我们创建了额外的训练数据和……

AI量子智能

2024年7月2日 09:15

MG-LLaVA：一种先进的多模态模型，擅长处理多种粒度的视觉输入，包括对象级特征、原始分辨率图像和高分辨率数据

MG-LLaVA: An Advanced Multi-Modal Model Adept at Processing Visual Inputs of Multiple Granularities, Including Object-Level Features, Original-Resolution Images, and High-Resolution Data

多模态大型语言模型 (MLLM) 在视觉任务中有各种应用。MLLM 依靠从图像中提取的视觉特征来理解其内容。当提供包含较少像素的低分辨率图像作为输入时，它会将较少的信息转换为这些模型以供使用。由于这种限制，这些模型通常需要 MG-LLaVA：一种先进的多模态模型，擅长处理多种粒度的视觉输入，包括对象级特征、原始分辨率图像和高分辨率数据，该帖子首先出现在 AI Quantum Intelligence 上。

Viam 博客

2024年6月24日 18:41

使用较慢的多模态 AI 训练快速计算机视觉模型 | Viam

Train fast computer vision models with slower multimodal AI | Viam

在数十亿个参数上训练的人工智能模型非常强大，但并不总是适合实时使用。了解如何使用较慢的多模态人工智能训练快速计算机视觉模型。

Apple机器学习研究

2024年6月18日 00:00

用于设备定向语音检测的融合低秩自适应多模态大型语言模型

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景，但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能，但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此，我们提出了一种融合低秩自适应 (FLoRA) 技术，该技术可以有效地调整预训练的单模态 LLM，通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测，使用 FLoRA，多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......

Qudata

2024年5月23日 09:00

GPT-4o 开启多模态 AI 新时代

A new era of multimodal AI with GPT-4o

在 Spring Update 活动期间，OpenAI 展示了 GPT-4®——一种独特的全能模型，集成了文本、音频和图像处理，使其能够比以往更快、更高效地工作。

Another Datum

2023年10月8日 09:33

用于信息融合的门控多模态单元

Gated Multimodal Units for Information Fusion

了解如何使用 GMU 块训练神经网络以使用来自多种不同模态的输入。

DeepMind - 新闻与博客

2022年5月27日 00:00

评估多模态交互式代理

Evaluating Multimodal Interactive Agents

在本文中，我们评估了这些现有评估指标的优点，并提出了一种称为标准化测试套件 (STS) 的新型评估方法。STS 使用从真实人机交互数据中挖掘的行为场景。

AI夏令营

2022年3月3日 00:00

视觉语言模型：面向多模态深度学习

Vision Language models: towards multi-modal deep learning

回顾最先进的视觉语言模型，例如 CLIP、DALLE、ALIGN 和 SimVL

Apple机器学习研究

2025年9月23日 00:00

atoken：视觉的统一令牌

AToken: A Unified Tokenizer for Vision

我们介绍了Atoken，这是第一个跨图像，视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同，atoken将这些不同的视觉输入编码为共享的4D潜在空间，在单个框架中统一任务和模态。具体而言，我们引入了带有4D旋转位置嵌入的纯变压器体系结构，以处理任意分辨率和时间持续时间的视觉输入。确保稳定…

模态关键词检索结果