新研究表明 GPT 可以胜过大多数考试,但它有一个弱点

教授们应该开始改变他们评估学生的方式。

来源:ZME科学
它几乎被用于所有可以想象到的应用中,教室也不例外。但是 ChatGPT 在解决考试问题方面真的有多好?图片由人工智能生成。
它几乎被用于所有可以想象到的应用中,教室也不例外。但是 ChatGPT 在解决考试问题方面真的有多好?图片由人工智能生成。

当 ChatGPT 在全球舞台上崭露头角时,它的第一个试验场之一就是教室。突然间,学生们可以使用一种能够回答问题、写论文并可能绕过传统学术挑战的工具。

毫不奇怪,学生们喜欢它。

学生们喜欢它

同样不出所料,对于教育工作者来说,这引发了一个紧迫的担忧:ChatGPT 能否帮助学生通过作弊获得教育?

提出了一个紧迫的问题

在一项新的研究中,研究人员将这个问题更进一步,研究了 ChatGPT 可以在没有任何学生输入的情况下自行完成多少门课程。

“我们对结果感到惊讶。没人想到人工智能助手会在如此多的课程中获得如此高的正确答案百分比。重要的是,65% 的正确答案是使用最基本的、没有知识提示的策略实现的,因此任何人,即使不了解任何技术知识,都可以做到这一点。只要有一些学科知识,这是很常见的,就有可能达到 85% 的成功率,这真的令人震惊,”NPL 的科学家、论文合著者 Anna Sotnikova 说。

STEM-GPT

研究人员分析了来自 STEM 领域的 5,500 多道考试和作业问题。对于多项选择题,它在 77% 的课程中​​获得了及格分数。它在结构化或基于文本的问题上表现得更加出色。然而,开放式任务和创造性解决问题则更具挑战性。

不同类型 GPT 的课程通过率。图片来源:PNAS。
不同类型 GPT 的课程通过率。图片来源:PNAS。

ChatGPT 表现不佳的地方

布鲁姆分类法