详细内容或原文请订阅后点击阅览
人工智能生成的评估:为什么更短的测试可以改善数字学习
在电子学习中,评估通常被视为“更多问题=更好的衡量”,但较长的测试并不总是能改善决策。本文展示了人工智能生成的较短评估如何通过正确的验证、公平性和质量护栏提供更有力的证据。这篇文章首次发表在电子学习行业上。
来源:eLearning行业 | 在线教育博客更快数字评估的人工智能问题
随着电子学习扩展到企业培训、高等教育和专业学习,评估设计仍然是课程开发中最耗时的部分之一。默认的方法通常是一个很长的测验——旨在“涵盖所有内容”。然而,评估质量并不仅仅由长度决定。现代测试标准强调评估设计和分数解释必须有证据证明其合理性并符合目的(AERA、APA 和 NCME,2014)。在许多数字学习环境中,尤其是在目标是及时反馈和教学行动的情况下,较短的评估可能更合适。人工智能改变了项目开发的经济学,并为更短、更有针对性的评估打开了大门,这些评估仍然提供有用的证据,同时也需要仔细关注道德和有效性(Bulut 等人,2024)。
为什么较长的在线测试通常表现不佳
较长的评估可能适合高风险环境,但在许多电子学习环境中,它们会产生可预测的问题:
1) 没有额外见解的重复
长测验经常重复使用相同的项目格式来多次测试相同的微技能。这增加了测试时间,但不一定改善学习团队可以推断出的下一步决策(AERA、APA 和 NCME,2014)。
2) 认知负担和疲劳效应
认知负荷理论强调了解决问题过程中工作记忆的限制。当评估不必要地冗长或重复时,表现可能反映的是超负荷或疲劳,而不是学习进度(Sweller,1988)。
3) 较慢的反馈循环
当证据能够迅速转化为行动时,数字化学习效果最佳。较长的测试会减慢完成速度、降低响应能力,并可能削弱支持改进的反馈周期(Hattie 和 Timperley,2007)。
