使用较慢的多模态 AI 训练快速计算机视觉模型 | Viam

在数十亿个参数上训练的人工智能模型非常强大,但并不总是适合实时使用。了解如何使用较慢的多模态人工智能训练快速计算机视觉模型。

来源:Viam 博客

经过数十亿个参数训练的 AI 模型非常强大,但并不总是适合实时使用。但是,它们可以通过自动监督快速专用模型的注释来减少人力投入。如果您曾经构建过计算机视觉模型,您就会知道监督需要大量精力——人类需要花时间(数小时或数天)绘制边界框并添加标签来注释训练图像。最终结果是一个快速的机器学习模型,可用于实时检测和自动化。然而,随着更多数据的收集,人工参与的要求不仅会减慢模型的初始训练速度,而且会减慢模型的任何迭代微调或改进速度。

经过数十亿个参数训练的 AI 模型非常强大,但并不总是适合实时使用。但是,它们可以通过自动监督快速专用模型的注释来减少人工工作量。

VLM 的兴起

基础 ChatGPT Moondream

一种“两阶段”自动标记方法

一种两阶段自动标记方法
一种两阶段自动标记方法

Grounding DINO 和 Segment Anything 等零样本模型已被 autodistill 等项目所利用,因为它们可以识别许多常见的注释类,尽管它们本身速度相当慢。这使得无需人工监督即可创建快速的自定义计算机视觉模型。但是,这些模型有一个权衡:虽然它们可以识别许多简单的类,但它们没有完整 VLM 执行完整上下文推理的能力。

基础 DINO 分割任何内容 自动提取
短语基础涉及将图像的特定区域与相应的短语相关联,例如“人”和“眼镜”
短语基础涉及将图像的特定区域与相应的短语相关联,例如“人”和“眼镜”
”
将基础模型和 VLM 一起使用的两阶段过程
Viam 自动标签过滤器 自动标签

‍