用于从标签分布中学习的度量相关注释饱和度

当注释者对某个标签存在分歧时,分歧本身就带有信号,而捕获该信号所需的注释者数量取决于评估指标。我们根据从 ChaosNLI(一个为每个项目提供 100 个独立注释器判断的数据集)二次采样的标签分布来微调 NLI 模型,并识别与度量相关的饱和度。在我们的 3 类 NLI 设置中,熵相关性(模型是否识别哪些项目引起分歧)需要 N ≈ 20-50 个注释器才能收敛,而分布匹配(KL 散度)则达到 N ≈ 10 饱和(五个模型的改进为 87-95%……

来源:Apple机器学习研究

当注释者对某个标签存在分歧时,分歧本身就带有信号,而捕获该信号所需的注释者数量取决于评估指标。我们根据从 ChaosNLI(一个为每个项目提供 100 个独立注释器判断的数据集)二次采样的标签分布来微调 NLI 模型,并识别与度量相关的饱和度。在我们的 3 类 NLI 设置中,熵相关性(模型是否识别哪些项目引起分歧)需要 N ≈ 20-50 个注释器才能收敛,而分布匹配(KL 散度)则达到 N ≈ 10 饱和(五个模型种子的改进为 87-95%)。这一发现基于先前的观察:软标签携带标签平滑无法复制的项目特定信号。在五个平滑强度中,熵相关性聚类在 r ≈ 0.45–0.49,而软标签达到 r = 0.643 (p < 0.001);每个项目的分析将这种差距追溯到平滑无法区分模糊项目和清晰项目。软标签优势在两种架构(DeBERTa、RoBERTa)、非 NLI 预训练基线以及内容安全的探索性跨域评估中得到复制。这些结果表明注释预算应根据目标评估指标来确定,而不是统一设置。