详细内容或原文请订阅后点击阅览
计算机视觉的注释瓶颈终于破裂
技术深入研究自动标记的计算机视觉的注释瓶颈终于在迈向数据科学的首先出现。
来源:走向数据科学计算机视觉(CV)型号仅与它们的标签一样好,并且这些标签在传统上的生产价格很高。行业研究表明,数据注释可以消耗视觉项目的预算的50-80%,并将时间表扩展到原始时间表之外。随着制造,医疗保健和物流竞赛的堆栈现代化的公司,数据注释时间和成本的影响正在成为巨大的负担。
行业研究表明到目前为止,标签依赖于手动,人类的努力。由于基础模型和视觉模型(VLMS)在开放式摄影检测和多模式推理方面,自动标记技术现在进入市场是有希望的,可以节省量的命令。最近的基准报告大规模数据集报告了约100,000倍的成本和时间。
最近的基准报告这种深度潜水首先绘制了手动注释的真实成本,然后解释了AI模型方法如何使自动标记实用。最后,它浏览了一个新颖的工作流(称为经过验证的自动标签),您可以尝试一下。
验证的自动标签为什么视觉仍然支付标签税
基于文本的AI在LLMS学会从原始的,未标记的单词中挖掘出意义时就脱颖而出。视觉模型从来没有这种奢侈品。探测器无法猜测“卡车”是什么样的,直到有人装箱数千辆卡车,并告诉网络“这是卡车”。
即使今天的视觉杂种也继承了这一约束:语言方面是自我监督的,但人类标签会引导视觉通道。行业研究估计,该工作的价格为平均计算机视觉预算的50-60%,大致相当于整个模型训练管道的成本。
行业研究资金充足的运营可以吸收成本,但它成为较小团队的阻挡者,最不负担得起。