相信你的法学硕士

本立场文件介绍了一个安全的、基于云的框架,用于测试大型语言模型如何准确、透明地对复杂的调查数据执行现实世界的统计分析。它使用经过验证的 ACS 微数据任务,比较仅推理和代码执行工作流程,突出显示值得信赖的人工智能驱动分析的优势、局限性和设计要求。

来源:美国数学政策研究中心信息

本文介绍了一个云原生框架,用于评估大型语言模型 (LLM) 对复杂的基于调查的数据执行应用统计分析的准确性和透明度。大多数公共基准评估基于文本的任务的推理,而不测试模型过滤微观数据、应用调查权重或生成有效人口估计的能力(政策研究的核心要求)。为了弥补这一差距,我们基于美国社区调查 (ACS) 公共使用微数据样本,使用 35 个经过验证的描述性和因果问题开发并测试了结构化评估流程。

我们比较了两种工作流程下的模型性能:仅推理和代码执行。在代码执行设置中,模型在安全、无服务器环境中针对真实数据生成并运行 Python 代码,从而实现迭代细化和可重复分析。结果表明,数据访问和工具调用大大提高了准确性,特别是对于描述性任务,而因果推理性能在不同模型中存在显着差异。调查结果强调,值得信赖的人工智能驱动分析不仅取决于模型功能,还取决于元数据质量、提示设计和受控分析工作流程。