详细内容或原文请订阅后点击阅览
CVPR 2025
苹果研究人员正在通过基础研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过在会议上的出版和参与分享我们的大部分研究。本周,IEEE/CVF计算机视觉和模式识别会议(CVPR)将在田纳西州的纳什维尔举行。苹果很荣幸能再次参加社区的这一重要活动,并成为行业赞助商。在主要会议和相关的研讨会上,苹果研究人员将在许多…
来源:Apple机器学习研究苹果研究人员正在通过基础研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过在会议上的出版和参与分享我们的大部分研究。本周,IEEE/CVF计算机视觉和模式识别会议(CVPR)将在田纳西州的纳什维尔举行。苹果为能够再次参加社区的重要活动而感到自豪,并成为行业赞助商。
IEEE/CVF计算机视觉和模式识别会议(CVPR)在主要会议和相关的研讨会上,苹果研究人员将在计算机视觉中的许多主题上介绍新的研究,包括视觉语言模型,3D摄影测量,大型多模式模型和视频扩散模型。
CVPR的参与者将能够在展览时间内的1217个展位中体验苹果的ML研究的演示。苹果还在赞助并参加了许多亲和力团体主持的活动,这些活动支持ML社区中代表性不足的团体。可以在此处找到苹果参与和对CVPR 2025的贡献的全面概述,下面有一系列亮点。
在这里fastvlm:视觉语言模型的有效愿景
随着输入图像的分辨率的增加,视觉语言模型(VLM)的性能会提高,但是由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。对于许多生产用例,VLM既需要准确又有效,才能满足实时应用程序的低延迟需求,并在设备上运行以提供隐私的AI体验。
mlx