详细内容或原文请订阅后点击阅览
适用于人类数据注释的可泛化错误建模:来自行业规模搜索数据注释程序的证据
机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误
来源:Apple机器学习研究机器学习(ML)和人工智能(AI)系统在很大程度上依赖于人类通知的数据进行培训和评估。在这种情况下,一个主要的挑战是出现注释错误,因为它们的效果会降低模型性能。本文提出了一个预测性错误模型,该模型训练有素,可以检测三个行业规模的ML应用程序(音乐流,视频流和移动应用程序)的搜索相关注释任务中的潜在错误。从广泛的搜索相关注释程序中利用现实世界中的数据,我们证明可以通过中等模型性能(AUC = 0.65-0.75)预测错误,并且该模型性能在跨应用程序(即,与任务特定模型相同的全局,任务 - agnostic模型均能进行良好的概述)。与过去的研究相反,与过去的研究相反,该研究通常专注于从事特定特定特征的注释标签,我们的模型经过训练,可以直接从任务特征和从注释过程中得出的行为特征组合来直接预测错误,以实现高度的推广性。我们在审计的背景下演示了模型的有用性,在审计的背景下,优先考虑具有高预测误差概率的任务大大增加了校正后的注释错误的量(例如,音乐流媒体应用程序的效率提高40%)。这些结果表明,行为误差检测模型可以在数据注释过程的效率和质量上产生可观的提高。我们的发现揭示了对数据注释过程中有效错误管理的关键见解,从而有助于更广泛的人类在循环ML的领域。