详细内容或原文请订阅后点击阅览
法学硕士可以取代调查受访者吗?
忘却如何修复综合调查回复中的模式崩溃帖子《法学硕士能否取代调查受访者?》首先出现在《走向数据科学》上。
来源:走向数据科学您要求法学硕士模拟 6,000 个美国家庭回答有关通货膨胀的问题?最近的论文发现,大型语言模型可以将主要家庭调查的平均回答复制到一个百分点以内(Zarifhonarvar,2026)。 2020 年,消费者预期调查 (SCE) 报告称,未来一年的中值通胀率约为 3%。具有现实人物角色和知识截止指令的即时法学硕士产生的中位数:也约为 3%。非常接近,以至于法学硕士已被宣传为对密歇根州 SCE 和专业预报员调查的低成本、高频率的补充。
在最近与杜伊斯堡-埃森大学的 Ami Dalloul 合着的一篇论文《法学硕士能否模仿家庭调查?》中,我们研究了第二时刻,即概率分布的一部分,它告诉您模型是代表一种意见还是一千种意见。基于法学硕士的调查的明显成功就在这里消失了。同样的 Llama-3 模型将 SCE 中位数控制在一个百分点以内,将 95% 的模拟受访者置于两个百分点的窗口内。 2020 年的实际 SCE 响应范围约为负 25% 至正 27%。简而言之,平均数是对的,但其背后的人口并不存在。因此,使用数千个 LLM 角色运行模拟可以归结为一个代表代理。
图 1:现实世界和综合调查人群的分散
模式折叠
我们对五个法学硕士(Llama-3-8B、Llama-3-70B、Claude-3.7-Sonnet、DeepSeek-V3、GPT-4o)与 SCE、密歇根调查和专业预报员调查进行了基准测试。在人类调查中,44%至70%的受访者给出的答案与模态回答相差超过3个百分点;在法学硕士样本中,这一比例基本上为零。
