详细内容或原文请订阅后点击阅览
模型辅助标记 - 是好是坏?
毫无疑问,对于许多 AI 项目来说,收集数据是项目最昂贵的部分。标记图像和文本片段等数据是一项艰巨而繁琐的工作,而且没有太大的扩展可能性。如果 AI 项目需要不断更新或获取新数据,那么这可能是一项高昂的成本,可能会对一个原本很棒的项目的整个商业案例构成挑战。不过,有一些策略可以降低标记数据的成本。我之前写过关于主动学习的文章;这是一种数据收集策略,侧重于在模型置信度最低的情况下优先标记最重要的数据。这是一个很好的策略,但在大多数情况下,您仍然需要标记大量数据。为了加快标记过程,出现了模型辅助标记策略。这个想法很简单,就是在标记的同时训练 AI,当 AI 开始在数据中看到某种模式时,AI 会向标记者建议标签。这样,在许多情况下,标记者只需批准预先建议的标签即可。模型辅助标记既可以通过训练一个模型来完成,该模型仅用于标记目的,也可以通过将实际生产模型放入标记循环中并让其建议标记来完成。但模型辅助标记只是一种更快地标记数据的可靠方法吗?或者这种策略有缺点吗?我深入研究过模型辅助标记,我确信它有利有弊,如果你不介意
来源:Dan Rose AI | 应用人工智能博客对于许多 AI 项目来说,收集数据无疑是项目中最昂贵的部分。标记图像和文本片段等数据是一项艰巨而繁琐的工作,没有太大的扩展可能性。如果 AI 项目需要不断更新或新鲜的数据,那么这可能是一项高昂的成本,可能会对一个原本很棒的项目的整个商业案例构成挑战。
不过,有一些策略可以降低标记数据的成本。我之前写过关于主动学习的文章;这是一种数据收集策略,侧重于在模型置信度最低的情况下优先标记最重要的数据。这是一个很好的策略,但在大多数情况下,您仍然需要标记大量数据。
主动学习 主动学习为了加快标记过程,出现了模型辅助标记策略。这个想法很简单,就是你在标记的同时训练 AI,当 AI 开始在数据中看到模式时,AI 会向标记者建议标签。这样,在许多情况下,标签制作者只需批准预先建议的标签即可。
模型辅助标记既可以通过专门为标记目的训练模型来完成,也可以通过将实际生产模型放入标记循环中并让其建议标签来完成。
但是模型辅助标记只是一种更快地标记数据的可靠方法吗?或者该策略有缺点吗?我深入研究过模型辅助标记,我确信它有利有弊,如果你不小心,你最终可能会用这种策略弊大于利。如果你正确管理它,它可以创造奇迹并为你节省大量资源。
那么让我们来看看利弊。
优点
缺点
另一个缺点是,如果预标记质量太低,标记者需要花费比从空白答案开始更多的时间来纠正。因此,您必须小心不要过早启用预标记。
概率编程