SAM 3 与专业模型 — 性能基准 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

SAM 3 与专业模型 — 性能基准

2026年1月25日 15:00 33 Comments

为什么专业模型在生产环境中仍然保持 30 倍的速度优势后 SAM 3 与专业模型 — 性能基准首先出现在《走向数据科学》上。

来源:走向数据科学

Segment Anything Model 3 (SAM3) 在计算机视觉界引起了轰动。社交媒体上理所当然地充斥着对其表现的赞扬。 SAM3 不仅仅是增量更新；它引入了提示概念分割（PCS），这是一种视觉语言架构，允许用户使用自然语言提示来分割对象。从其 3D 功能 (SAM3D) 到本机视频跟踪，它无疑是通用人工智能的杰作。

然而，在生产级人工智能的世界中，兴奋往往会模糊零样本能力和实际主导地位之间的界限。发布后，许多人声称不再需要进行室内探测器培训。作为一名在现场部署模型多年的工程师，我感受到了一种熟悉的怀疑。虽然基础型号是终极瑞士军刀，但当您拥有电锯时，您不会用它来砍伐森林。本文研究了一个经常出现在研究论文中但很少针对生产环境的限制进行测试的问题。

在完全自主的环境中，使用有限数据和 6 小时计算预算训练的小型特定任务模型能否胜过像 SAM3 这样的大型通用模型？

对于那些处于计算机视觉前沿的人来说，本能的答案是肯定的。但在一个由数据驱动的行业中，直觉是不够的，因此，我决定证明这一点。

SAM3 有什么新功能？

在深入研究基准测试之前，我们需要了解为什么 SAM3 被认为是一次飞跃。 SAM3 是一个重量级基础模型，包含 84050975 万个参数。这种规模是有成本的，推理的计算成本很高。在 NVIDIA P100 GPU 上，每个图像的运行时间约为 1100 毫秒。

前身 SAM 专注于Where（交互式点击、框和掩码），而 SAM3 引入了视觉语言组件，可以通过文本驱动、开放词汇提示进行 What 推理。

基准

物体检测

1. 全球小麦检测

执行详细信息：

分割基准物体基础通用模型测试的检测推理计算成本工程师前沿的详细信息提示本能的肯定的探测器数据驱动直觉在现场人工智能自主的重量级需要引入为什么使用进行交互式计算机有限数视觉环境的运行时间训练的模型 SAM3 驱动的