社会科学家使用自动注释方法,例如有监督的机器学习以及最近的大型语言模型(LLM),可以预测标签和基于文本的变量。虽然经常对这种预测的基于文本的变量进行分析,就像没有错误观察到它们,但我们表明,即使自动化注释的准确性高于90%,忽略自动注释步骤中的预测错误也会导致下游分析中的实质性偏见和无效的置信区间。我们提出了一个基于设计的监督学习框架(DSL),该框架即使预测的变量包含非随机词语前字典错误,也可以提供有效的统计估计。DSL采用双重强大的程序来组合预测的标签和少量的专家注释。DSL允许学者在保持统计有效性的同时,将LLM中的进步应用于社会科学研究。我们使用两个应用程序和自变量基于文本的应用程序说明了其一般适用性。
主要关键词