使用较慢的多模态 AI 训练快速计算机视觉模型

详细内容或原文请订阅后点击阅览

使用较慢的多模态 AI 训练快速计算机视觉模型 | Viam

2024年6月24日 18:41 33 Comments

在数十亿个参数上训练的人工智能模型非常强大，但并不总是适合实时使用。了解如何使用较慢的多模态人工智能训练快速计算机视觉模型。

来源:Viam 博客

经过数十亿个参数训练的 AI 模型非常强大，但并不总是适合实时使用。但是，它们可以通过自动监督快速专用模型的注释来减少人力投入。如果您曾经构建过计算机视觉模型，您就会知道监督需要大量精力——人类需要花时间（数小时或数天）绘制边界框并添加标签来注释训练图像。最终结果是一个快速的机器学习模型，可用于实时检测和自动化。然而，随着更多数据的收集，人工参与的要求不仅会减慢模型的初始训练速度，而且会减慢模型的任何迭代微调或改进速度。

经过数十亿个参数训练的 AI 模型非常强大，但并不总是适合实时使用。但是，它们可以通过自动监督快速专用模型的注释来减少人工工作量。

VLM 的兴起

基础 ChatGPT Moondream

一种“两阶段”自动标记方法

一种两阶段自动标记方法

Grounding DINO 和 Segment Anything 等零样本模型已被 autodistill 等项目所利用，因为它们可以识别许多常见的注释类，尽管它们本身速度相当慢。这使得无需人工监督即可创建快速的自定义计算机视觉模型。但是，这些模型有一个权衡：虽然它们可以识别许多简单的类，但它们没有完整 VLM 执行完整上下文推理的能力。

基础 DINO 分割任何内容自动提取

短语基础涉及将图像的特定区域与相应的短语相关联，例如“人”和“眼镜”

â

将基础模型和 VLM 一起使用的两阶段过程 Viam 自动标签过滤器自动标签

标记注释自动监督模型的基础涉及图像两阶段人工短语模型标签 VLM