人工智能 (AI) 聊天机器人已成为现代学术事业的强大工具,为学习领域带来了机遇和挑战。它们可以提供大多数学科的内容信息和分析,但在结论和解释的响应准确性以及字数方面存在显著差异。本研究探讨了四个不同的 AI 聊天机器人(GPT-3.5、GPT-4、Bard 和 LLaMA 2)在大学级经济学背景下的结论准确性和解释质量。该研究利用布鲁姆的认知学习复杂性分类法作为指导框架,对四个 AI 聊天机器人进行了标准测试,以了解大学水平的经济学理解以及更高级的经济学问题。所有 AI 聊天机器人在探索经济学理解的提示上表现同样出色的零假设被拒绝。结果表明,四个 AI 聊天机器人之间存在显著差异,并且随着经济学相关提示的复杂性增加,这些差异会加剧。这些发现与学生和教育工作者都息息相关;学生可以选择最合适的聊天机器人来更好地理解经济学概念和思维过程,而教育工作者可以设计他们的教学和评估,同时认识到学生可以通过 AI 聊天机器人平台获得的支持和资源。