Watch: "World's first multi-modal biped robot" could soon be yours
你想拥有《星球大战:绝地归来》中的 AT-ST 步行机吗?那么,刚刚发布的 Tron 1 双足机器人就是第二好的选择。它比步行机小一点,而且你不能骑在里面。继续阅读类别:机器人技术、技术标签:LimX、双足机器人
Molmo öppna toppmoderna multimodala AI-modeller
Molmo 是一系列先进且开放的人工智能模型,可以同时处理多种类型的数据。这些型号的性能优于市场上许多较大的型号。与传统的多模式系统不同,Molmo 可以与物理和虚拟环境交互。这要归功于使用 Molmo 后开放的最先进的多模式 AI 模型收集的独特数据集,该模型首次出现在 AI 新闻中。
Gartner: К 2027 году 40% решений на основе генеративного ИИ станут мультимодальными
向将工作与文本、图像、音频和视频相结合的模型的过渡将改善人类与人工智能的交互。
Hands-On Imitation Learning: From Behavior Cloning to Multi-Modal Imitation Learning
最突出的模仿学习方法概述,并在网格环境中进行测试照片由 Possessed Photography 在 Unsplash 上拍摄强化学习是机器学习的一个分支,它涉及通过标量信号(奖励)的引导进行学习;与监督学习相反,监督学习需要目标变量的完整标签。一个直观的例子来解释强化学习,可以用一所有两个班级的学校来解释,这两个班级有两种类型的测试。第一节课解决了测试并获得了完全正确的答案(监督学习:SL)。第二节课解决了测试并只获得了每个问题的成绩(强化学习:RL)。在第一种情况下,学生似乎更容易学习正确的答案并记住它们。在第二节课中,任务更难,因为他们只能通过反复试验来学习。然而,它们的学习更加稳健,
在这篇文章中,我们详细介绍了我们在创建两个概念验证 (PoC) 练习方面的合作,这些练习围绕多模态机器学习进行生存分析和癌症亚型分析,使用基因组(基因表达、突变和拷贝数变异数据)和成像(组织病理学幻灯片)数据。我们提供了关于使用 Amazon SageMaker 在 AWS 上构建复杂 ML 工作流的可解释性、稳健性和最佳实践的见解。这些多模态管道正在 Genomics England 癌症队列中使用,以增强我们对癌症生物标志物和生物学的理解。
EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders
准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明,增强的视觉感知可显著减少幻觉并提高分辨率敏感任务(例如光学字符识别和文档分析)的性能。最近的几个 MLLM 通过利用视觉编码器的混合来实现这一点。尽管 […]EAGLE:探索使用混合编码器的多模态大型语言模型的设计空间首先出现在 Unite.AI 上。
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……
Multimodal courtship communication in a wolf spider
狼蛛的多模态求偶通信摘要许多动物使用多种感官模式进行通信(例如,振动、视觉、化学),目前人们对多模态信号在配偶选择中的作用很感兴趣。我们测试了以下假设:雄性 Gladicosa bellamyi 狼蛛(Lycosidae)使用多模态信号向雌性求偶,并且这些信号与雄性交配成功率有关。使用激光多普勒测振仪和摄像机,我们描述了雄性 G. bellamyi 的振动和视觉求偶信号。雄性用由三个部分组成的振动信号向雌性求偶:摩擦脉冲、腹部叩击和第三个未知的叩击元素(推测来自快速腹部敲击),以及两个独特的视觉显示,即前腿伸展/敲击和方形腿拱。雌性 G. bellamyi 没有明显的振动信号,但具有与其他雌性
在过去的几十年里,传感器、人工智能和处理能力的技术进步将机器人导航推向了新的高度。为了将机器人技术提升到一个新的水平,并使它们成为我们生活中的常规部分,许多研究建议将 ObjNav 和 VLN 的自然语言空间转移到多模态空间,以便机器人 Google DeepMind 研究人员展示了 Mobility VLA:具有长上下文 VLM 和拓扑图的多模态指令导航,首先出现在 AI Quantum Intelligence 上。
文本到图像生成模型已经通过先进的 AI 技术获得了关注,能够根据文本提示生成详细且上下文准确的图像。该领域的快速发展导致了许多模型的出现,例如 DALLE-3 和 Stable Diffusion,旨在将文本转换为视觉上连贯的图像。文本到图像生成中的一个重大挑战是帖子 MJ-BENCH:用于评估文本到图像生成的多模式 AI 基准,重点关注对齐、安全性和偏差,首先出现在 AI Quantum Intelligence 上。
SenseTime SenseNova 5o Kinas första realtids-multimodella modell
商汤科技在上海举行的世界人工智能大会上发布了突破性的人工智能模型SenseNova 5o和SenseNova 5.5。 SenseNova 5o是中国第一个实时多模态模型,可以处理各种数据类型进行交互对话,提高了数学推理、英语和跟随提示的能力。更新后的SenseNova 5.5大型模型提供了经济高效的近边缘部署,并已被[…]采用。商汤科技SenseNova 5o中国首款实时多模型首次出现在AI新闻上。
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
我们推出了 MIA-Bench,这是一种新的基准,旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成,每个对都经过精心设计,旨在挑战模型对分层指令的遵守情况,从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异,突出了指令保真度方面需要改进的地方。此外,我们创建了额外的训练数据和……
多模态大型语言模型 (MLLM) 在视觉任务中有各种应用。MLLM 依靠从图像中提取的视觉特征来理解其内容。当提供包含较少像素的低分辨率图像作为输入时,它会将较少的信息转换为这些模型以供使用。由于这种限制,这些模型通常需要 MG-LLaVA:一种先进的多模态模型,擅长处理多种粒度的视觉输入,包括对象级特征、原始分辨率图像和高分辨率数据,该帖子首先出现在 AI Quantum Intelligence 上。
这篇文章是 AWS 中的生成式 AI 和多模式代理的后续文章:解锁金融市场新价值的关键。本博客是“资本市场和金融服务中的生成式 AI 和 AI/ML”系列的一部分。资本市场的金融分析师和研究分析师从金融和非金融数据中提取商业见解,[…]
Train fast computer vision models with slower multimodal AI | Viam
在数十亿个参数上训练的人工智能模型非常强大,但并不总是适合实时使用。了解如何使用较慢的多模态人工智能训练快速计算机视觉模型。
虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景,但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可以有效地调整预训练的单模态 LLM,通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......
How Multimodal AI Could Retool Global Crisis Response
2024-06-03在本文中,作者认为,随着政府领导人应对日益严重和复杂的灾难,多模式人工智能成为有效、协调的危机应对的有前景的工具。本出版物是贝尔弗中心国土安全项目教席主席 Juliette Kayyem 领导的全球危机与复原力论坛连续出版物系列的一部分。