模态关键词检索结果

[鱼类学 • 2024] Rhinogobius jangshiensis • 一种新的淡水虾虎鱼,Rhinogobius Gill,1859 年(戈壁形目:戈壁科),来自中国东南部福建省江石盆地

[Ichthyology • 2024] Rhinogobius jangshiensis • A New Freshwater Goby of Rhinogobius Gill, 1859 (Gobiiformes: Gobiidae) from the Jangshi Basin, Fujian Province, southeastern China

Rhinogobius jangshiensisI-S. Chen, K.-Y. Chen & Wang, 2024 漳溪吻鰕虎 || DOI: doi.org/10.11646/zootaxa.5550.1.37摘要在福建省南部漳溪河流域采集到了Rhnogobius Gill, 1859 属的淡水鰕虎新种。Rhinogobius jangshiensis 新种可以通过其特定的体色和碎片特征与其他同类很好地区分开来:(1)鳍条:第二背鳍鳍条I/8;臀鳍鳍条I/7;胸鳍鳍条模态17;(2)鳞片:纵鳞列28–30(模态29);背上鳞9–10(模态9);脊椎骨数 27;(3)特异性的体色图案:雄鱼颊

使用 LLM 实现时间序列推理

Towards Time-Series Reasoning with LLMs

多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展,但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色,但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法,该方法可以学习跨各个领域的可推广信息,并具有强大的零样本性能。首先,我们在… 之上训练一个轻量级时间序列编码器

霍尼韦尔和谷歌云将利用人工智能代理加速工业领域的自主运营

Honeywell and Google Cloud to accelerate autonomous operations with AI agents for the industrial sector

霍尼韦尔和 Google Cloud 合作开展“独特合作”,将人工智能 (AI) 代理与资产、人员和流程联系起来,以加速工业部门更安全、更自主的运营。此次合作将结合 Vertex AI 上的 Gemini(Google Cloud 的 AI 平台)的多模态和自然语言功能以及庞大的 […]

多模式 AI 的兴起

The rise of multimodal AI

重要性:多模态 AI 的兴起:探索 AI 如何整合文本、图像和音频,实现跨行业创新。

计算机使用和 AI 代理:屏幕交互的新范式

Computer Use and AI Agents: A New Paradigm for Screen Interaction

探索多模态 AI 代理的未来和屏幕交互的影响作者使用 GPT4o 创建的图像简介:不断发展的 AI 代理格局Anthropic、微软和苹果最近发布的公告正在改变我们对 AI 代理的看法。如今,“AI 代理”一词已经饱和——几乎每个与 AI 相关的公告都提到了代理,但它们的复杂程度和实用性差别很大。一方面,我们拥有先进的代理,它们利用多个循环进行规划、工具执行和目标评估,并不断迭代直到完成任务。这些代理甚至可以创建和使用记忆,从过去的错误中吸取教训,以推动未来的成功。确定什么是有效的代理是 AI 研究的一个非常活跃的领域。它涉及了解哪些属性造就了一个成功的代理(例如,代理应该如何规划、如何使用内

4M-21:适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

对比本地化语言图像预训练

Contrastive Localized Language-Image Pre-Training

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

中国在 AI 竞赛中表现如何?科技巨头和初创公司正在突破界限

How is China doing in the AI race? Tech giants and startups are pushing boundaries

阿里云最近在其 Qwen 2.5 系列中发布了 100 多个新的开源模型。这些模型的大小从 0.5 到 720 亿个参数不等,可以用 29 种不同的语言处理从编码到数学的任务。该公司的统一模型可通过 Model Studio 平台使用,短短几个月内,其用户群就从 90,000 人跃升至 300,000 多人。阿里巴巴还在多模态 AI 领域不断突破界限。他们推出了一种文本转视频模型,可以根据书面描述创建各种视频风格,类似于尚未发布的 OpenAI 的 Sora。该公司的 Qwen 2-VL 模型可以The post 中国在 AI 竞赛中表现如何?科技巨头和初创公司正在突破界限首先出现在 Dail

使用基于语音检索的增强功能将 ASR 与 LLM 关联化

Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation

大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……

复杂与智能系统,第 10 卷,第 5 期,2024 年 10 月

Complex & Intelligent Systems, Volume 10, Issue 5, October 2024

1) 语音-视频双模态信号驱动的 3D 面部动画作者:纪学杰、廖舟舟……毛猛页数:5951 - 59642) 一种改进的果蝇优化算法与 Q 学习相结合,用于解决分布式置换流水线调度问题作者:赵才、吴良宏……张洪强页数:5965 - 59883) 足球 1 对 1 射门情况下的最佳决策战略框架:机器学习、基于理论的建模和博弈论的综合方法作者:杨凯文、藤井圭介页数:5989 - 60084) 针对混合整数变量的昂贵约束优化问题的种群状态驱动代理辅助差分进化算法作者:刘建胜、袁斌……邱浩波页数:6009 - 60305) 一种智能 MRI 辅助诊断和治疗系统基于超分辨率的骨肉瘤识别作者:许忠,方方苟

Transformer?扩散?输血!

Transformer? Diffusion? Transfusion!

最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t

使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构

Optimizing Document Understanding with DocOwl2: A Novel High-Resolution Compression Architecture

理解多页文档和新闻视频是人类日常生活中的一项常见任务。为了解决这种情况,多模态大型语言模型 (MLLM) 应该具备理解具有丰富视觉文本信息的多幅图像的能力。然而,理解文档图像比自然图像更具挑战性,因为它需要更细粒度的感知。使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构,首次出现在 AI Quantum Intelligence 上。

Ferret-UI:基于多模式法学硕士 (LLM) 的扎实移动 UI 理解

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……

引入语义标签过滤:通过标签相似性增强检索

Introducing Semantic Tag Filtering: Enhancing Retrieval with Tag Similarity

语义标签过滤如何使用语义相似性来改进标签过滤***要理解本文,需要了解 Jaccard 相似性和向量搜索。该算法的实现已在 GitHub 上发布,并且完全开源。多年来,我们已经发现了如何从不同模态中检索信息,例如数字、原始文本、图像以及标签。随着定制 UI 的日益普及,标签搜索系统已成为一种方便的方式,可以轻松过滤具有良好准确度的信息。通常使用标签搜索的一些情况是检索社交媒体帖子、文章、游戏、电影甚至简历。然而,传统的标签搜索缺乏灵活性。如果我们要过滤掉包含指定标签的样本,可能会出现这样的情况:特别是对于只包含几千个样本的数据库,可能没有任何(或只有几个)与我们的查询匹配的样本。在结果稀缺的情

UI-JEPA:通过屏幕上的用户活动主动感知用户意图

UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity

从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……

AIAI 波士顿 2024:三个共同举办的峰会探索尖端 AI

AIAI Boston 2024: Three co-located summits exploring cutting-edge AI

此次会议在马萨诸塞州波士顿举行,通过三场同地峰会,为深入研究人工智能技术前沿提供了独特的机会。该活动将于 2024 年 10 月 16 日至 18 日在波士顿海港区威斯汀酒店举行,届时将举办三场同地峰会,每场峰会都侧重于 AI 的不同方面:首席 AI 官峰会(2024 年 10 月 16 日):为 C 级高管提供执行 AI 战略的全面路线图。生成 AI 峰会(2024 年 10 月 17 日和 18 日):解决基础设施、微调、可扩展性、多模态 AI 以及 LLM 可观察性和安全性方法方面的关键挑战。计算机视觉峰会(2024 年 10 月 17 日):部署文章 AIAI Boston 2024:

狼蛛的多模式求爱交流

Multimodal courtship communication in a wolf spider

狼蛛的多模态求偶通信摘要许多动物使用多种感官模式进行通信(例如,振动、视觉、化学),目前人们对多模态信号在配偶选择中的作用很感兴趣。我们测试了以下假设:雄性 Gladicosa bellamyi 狼蛛(Lycosidae)使用多模态信号向雌性求偶,并且这些信号与雄性交配成功率有关。使用激光多普勒测振仪和摄像机,我们描述了雄性 G. bellamyi 的振动和视觉求偶信号。雄性用由三个部分组成的振动信号向雌性求偶:摩擦脉冲、腹部叩击和第三个未知的叩击元素(推测来自快速腹部敲击),以及两个独特的视觉显示,即前腿伸展/敲击和方形腿拱。雌性 G. bellamyi 没有明显的振动信号,但具有与其他雌性

IEEE 认知和发展系统汇刊,第 16 卷,第 4 期,2024 年 8 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 16, Issue 4, August 2024

1) 基于多模态生理信号的用户感知多层级认知工作量估计作者:Pierluigi Vito Amadori、Yiannis Demiris页数:1212 - 12222) TR-TransGAN:用于纵向 MRI 数据集扩展的时间递归 Transformer 生成对抗网络作者:Chen-Chen Fan、Hongjun Yang、Liang Peng、Xiao-Hu Zhou、Shiqi Liu、Sheng Chen、Zeng-Guang Hou页数:1223 - 12323) 基于多标准 TD3 的深度强化学习用于分散式多机器人路径规划作者:Heqing Yin、Chang Wang、Chao