霍尼韦尔和 Google Cloud 合作开展“独特合作”,将人工智能 (AI) 代理与资产、人员和流程联系起来,以加速工业部门更安全、更自主的运营。此次合作将结合 Vertex AI 上的 Gemini(Google Cloud 的 AI 平台)的多模态和自然语言功能以及庞大的 […]
Computer Use and AI Agents: A New Paradigm for Screen Interaction
探索多模态 AI 代理的未来和屏幕交互的影响作者使用 GPT4o 创建的图像简介:不断发展的 AI 代理格局Anthropic、微软和苹果最近发布的公告正在改变我们对 AI 代理的看法。如今,“AI 代理”一词已经饱和——几乎每个与 AI 相关的公告都提到了代理,但它们的复杂程度和实用性差别很大。一方面,我们拥有先进的代理,它们利用多个循环进行规划、工具执行和目标评估,并不断迭代直到完成任务。这些代理甚至可以创建和使用记忆,从过去的错误中吸取教训,以推动未来的成功。确定什么是有效的代理是 AI 研究的一个非常活跃的领域。它涉及了解哪些属性造就了一个成功的代理(例如,代理应该如何规划、如何使用内
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......
Contrastive Localized Language-Image Pre-Training
对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……
How is China doing in the AI race? Tech giants and startups are pushing boundaries
阿里云最近在其 Qwen 2.5 系列中发布了 100 多个新的开源模型。这些模型的大小从 0.5 到 720 亿个参数不等,可以用 29 种不同的语言处理从编码到数学的任务。该公司的统一模型可通过 Model Studio 平台使用,短短几个月内,其用户群就从 90,000 人跃升至 300,000 多人。阿里巴巴还在多模态 AI 领域不断突破界限。他们推出了一种文本转视频模型,可以根据书面描述创建各种视频风格,类似于尚未发布的 OpenAI 的 Sora。该公司的 Qwen 2-VL 模型可以The post 中国在 AI 竞赛中表现如何?科技巨头和初创公司正在突破界限首先出现在 Dail
Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation
大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……
Complex & Intelligent Systems, Volume 10, Issue 5, October 2024
1) 语音-视频双模态信号驱动的 3D 面部动画作者:纪学杰、廖舟舟……毛猛页数:5951 - 59642) 一种改进的果蝇优化算法与 Q 学习相结合,用于解决分布式置换流水线调度问题作者:赵才、吴良宏……张洪强页数:5965 - 59883) 足球 1 对 1 射门情况下的最佳决策战略框架:机器学习、基于理论的建模和博弈论的综合方法作者:杨凯文、藤井圭介页数:5989 - 60084) 针对混合整数变量的昂贵约束优化问题的种群状态驱动代理辅助差分进化算法作者:刘建胜、袁斌……邱浩波页数:6009 - 60305) 一种智能 MRI 辅助诊断和治疗系统基于超分辨率的骨肉瘤识别作者:许忠,方方苟
Transformer? Diffusion? Transfusion!
最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t
Optimizing Document Understanding with DocOwl2: A Novel High-Resolution Compression Architecture
理解多页文档和新闻视频是人类日常生活中的一项常见任务。为了解决这种情况,多模态大型语言模型 (MLLM) 应该具备理解具有丰富视觉文本信息的多幅图像的能力。然而,理解文档图像比自然图像更具挑战性,因为它需要更细粒度的感知。使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构,首次出现在 AI Quantum Intelligence 上。
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……
Introducing Semantic Tag Filtering: Enhancing Retrieval with Tag Similarity
语义标签过滤如何使用语义相似性来改进标签过滤***要理解本文,需要了解 Jaccard 相似性和向量搜索。该算法的实现已在 GitHub 上发布,并且完全开源。多年来,我们已经发现了如何从不同模态中检索信息,例如数字、原始文本、图像以及标签。随着定制 UI 的日益普及,标签搜索系统已成为一种方便的方式,可以轻松过滤具有良好准确度的信息。通常使用标签搜索的一些情况是检索社交媒体帖子、文章、游戏、电影甚至简历。然而,传统的标签搜索缺乏灵活性。如果我们要过滤掉包含指定标签的样本,可能会出现这样的情况:特别是对于只包含几千个样本的数据库,可能没有任何(或只有几个)与我们的查询匹配的样本。在结果稀缺的情
UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity
从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……
AIAI Boston 2024: Three co-located summits exploring cutting-edge AI
此次会议在马萨诸塞州波士顿举行,通过三场同地峰会,为深入研究人工智能技术前沿提供了独特的机会。该活动将于 2024 年 10 月 16 日至 18 日在波士顿海港区威斯汀酒店举行,届时将举办三场同地峰会,每场峰会都侧重于 AI 的不同方面:首席 AI 官峰会(2024 年 10 月 16 日):为 C 级高管提供执行 AI 战略的全面路线图。生成 AI 峰会(2024 年 10 月 17 日和 18 日):解决基础设施、微调、可扩展性、多模态 AI 以及 LLM 可观察性和安全性方法方面的关键挑战。计算机视觉峰会(2024 年 10 月 17 日):部署文章 AIAI Boston 2024:
Multimodal courtship communication in a wolf spider
狼蛛的多模态求偶通信摘要许多动物使用多种感官模式进行通信(例如,振动、视觉、化学),目前人们对多模态信号在配偶选择中的作用很感兴趣。我们测试了以下假设:雄性 Gladicosa bellamyi 狼蛛(Lycosidae)使用多模态信号向雌性求偶,并且这些信号与雄性交配成功率有关。使用激光多普勒测振仪和摄像机,我们描述了雄性 G. bellamyi 的振动和视觉求偶信号。雄性用由三个部分组成的振动信号向雌性求偶:摩擦脉冲、腹部叩击和第三个未知的叩击元素(推测来自快速腹部敲击),以及两个独特的视觉显示,即前腿伸展/敲击和方形腿拱。雌性 G. bellamyi 没有明显的振动信号,但具有与其他雌性
IEEE Transactions on Cognitive and Developmental Systems, Volume 16, Issue 4, August 2024
1) 基于多模态生理信号的用户感知多层级认知工作量估计作者:Pierluigi Vito Amadori、Yiannis Demiris页数:1212 - 12222) TR-TransGAN:用于纵向 MRI 数据集扩展的时间递归 Transformer 生成对抗网络作者:Chen-Chen Fan、Hongjun Yang、Liang Peng、Xiao-Hu Zhou、Shiqi Liu、Sheng Chen、Zeng-Guang Hou页数:1223 - 12323) 基于多标准 TD3 的深度强化学习用于分散式多机器人路径规划作者:Heqing Yin、Chang Wang、Chao
Soft Computing, Volume 28, Issue 13-14, July 2024
1) 使用广义梯形模糊数的完整排序进行多准则决策:修改后的结果作者:Raina Ahuja、Amit Kumar、S. S. Appadoo页数:7589 - 76002) 分数不确定微分方程的参数估计作者:Cheng Luo、Guo–Cheng Wu、Ting Jin页数:7601 - 76163) CL 代数上的拓扑作者:H. Khajeh Nasir、M. Aaly Kologani、R. A. Borzooei页数:7617 - 76254) 基于 Siamese capsule gorilla soldiers network 的汽车评论多模态情绪分析作者:Sri Raman Kot