CVPR 2025 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

CVPR 2025

2025年6月10日 00:00 33 Comments

苹果研究人员正在通过基础研究来推进AI和ML，并支持更广泛的研究社区并帮助加速该领域的进步，我们通过在会议上的出版和参与分享我们的大部分研究。本周，IEEE/CVF计算机视觉和模式识别会议（CVPR）将在田纳西州的纳什维尔举行。苹果很荣幸能再次参加社区的这一重要活动，并成为行业赞助商。在主要会议和相关的研讨会上，苹果研究人员将在许多…

来源:Apple机器学习研究

苹果研究人员正在通过基础研究来推进AI和ML，并支持更广泛的研究社区并帮助加速该领域的进步，我们通过在会议上的出版和参与分享我们的大部分研究。本周，IEEE/CVF计算机视觉和模式识别会议（CVPR）将在田纳西州的纳什维尔举行。苹果为能够再次参加社区的重要活动而感到自豪，并成为行业赞助商。

IEEE/CVF计算机视觉和模式识别会议（CVPR）

在主要会议和相关的研讨会上，苹果研究人员将在计算机视觉中的许多主题上介绍新的研究，包括视觉语言模型，3D摄影测量，大型多模式模型和视频扩散模型。

CVPR的参与者将能够在展览时间内的1217个展位中体验苹果的ML研究的演示。苹果还在赞助并参加了许多亲和力团体主持的活动，这些活动支持ML社区中代表性不足的团体。可以在此处找到苹果参与和对CVPR 2025的贡献的全面概述，下面有一系列亮点。

在这里

fastvlm：视觉语言模型的有效愿景

随着输入图像的分辨率的增加，视觉语言模型（VLM）的性能会提高，但是由于大量令牌和高度编码延迟，流行的视觉编码器（例如VIT）在高分辨率下效率低下。对于许多生产用例，VLM既需要准确又有效，才能满足实时应用程序的低延迟需求，并在设备上运行以提供隐私的AI体验。

mlx

图1：在iPhone 16 Pro上使用MLX运行FASTVLM 0.5B模型的演示应用程序。

matrix3d：大型摄影测量模型多合一

大视力编码器的多模式自回旋预训练

AIMV2

带有显式3D建模的世界一致的视频扩散

fastvlm cv CVPR 2025

参加苹果 CVF 计算机语言相关的提高模型编码延迟输入大部分摄影测量流行的社区 IEEE 输入图像基础研究一致的 CVPR 3D 一系列高分辨率视觉编码研究视觉应用程序编码器能够参与者研究人员模型的多模式 ML 分辨率模式识别研究的研讨会活动广泛的扩散模型 AI 不足的

CVPR 2025

fastvlm：视觉语言模型的有效愿景

matrix3d：大型摄影测量模型多合一

大视力编码器的多模式自回旋预训练

带有显式3D建模的世界一致的视频扩散

其他外部链接

Tags

XiaoMi-AI