详细内容或原文请订阅后点击阅览
人工智能还不足以对大学论文进行评分,奖励“风格胜于内容”
人工智能评分与人类分类的匹配率只有 50%,在质量上与极端情况作斗争,而且往往偏向于语言风格。
来源:Scientific Inquirer研究人员使用顶级生成式人工智能模型对数百篇本科论文进行评分,发现人工智能仅在大约一半的情况下与人类授予的学位分类相匹配,而且人工智能常常无法准确评估最佳和最差的提交内容。
剑桥大学领导的心理学家和人工智能专家团队测试了三个“前沿”系统,包括最新版本(截至 2026 年 4 月)的 Claude 和 ChatGPT,测试了三所英国大学作为心理学学位的一部分提交的 750 多篇学生论文。
研究人员表示,虽然人工智能对论文评分(从课程作业到考试答案)的准确性“并非都很高”,但它确实在 35-65% 的情况下成功匹配了人类考官给出的广泛评分范围(第一、2:1、2:2 等)。
然而,人工智能的主要障碍包括经常低估人类给予最高分的作品,或高估排名最低的论文。
与人类考官不同,所有人工智能系统都“对语言特征过度敏感”:根据论文长度、词汇范围和句子复杂性给出更高的分数,而不管论文的学术质量如何。
在最新的报告中,研究人员认为人工智能对于学生评估的各个方面可能很有价值,例如错误检测和一致性检查(“第二双眼睛”)以及对学生的反馈进行分类。
例如,人工智能和人类评分之间的巨大差异可能有助于标记需要人类评估员进一步审查的作业。
然而,该团队警告说,仅靠人工智能来评分本科作业还太浅薄且不一致,最终分数应该始终由人类决定。
“大学面临着减少员工工作量和提高效率的巨大压力,同时满足学生不断增长的期望,有些大学可能开始依靠人工智能进行评估,”领导新报告背后的 OpRaise 项目的剑桥心理学家黛博拉·塔尔米 (Deborah Talmi) 博士说。
