为了评估我们的管道,我们将专家辅助手动方法与LLM辅助自动方法进行了比较。我们使用“注释者协议(IAA)”测量了它们的一致性,并以Cohen Kappa评分进行了量化(Pedregosa等人。2011),其中更高的分数表示更可靠和一致的产出(1:最大一致,-1:无协议)。人类专家(注释者1和2)中的Kappa得分为0.54(中度一致),而将人类专家与LLM进行比较的分数为0.16和0.12(轻微一致)。差异部分是由于人类注释者比LLM访问更多信息(包括代码,数据集,数据集,表和补充材料),而LLM仅限于文本本身。鉴于这些限制,结果是有希望的,但也表明了通过在LLM输入中添加进一步的方式来改善它们的潜力。