人工智能工具在教育领域发展迅速,这凸显了对其性能进行全面和严格评估的迫切需要。为此,本研究测试了 ChatGPT 和 Google Bard 在回答工程和卫生领域一系列问题方面的有效性。所研究的问题类型包括判断题、多项选择题 (MCQ)、匹配题、简答题、论文题和计算题。研究结果表明,ChatGPT 4 在创造性解决问题和各种问题类型的准确性方面都超过了 ChatGPT 3.5 和 Google Bard。ChatGPT 4 在判断题中的准确率最高,达到 97.5%,而在计算题中的准确率最低,为 82.5%。提示 ChatGPT 和 Google Bard 提供简短的回答显然可以防止它们产生幻觉,从而给出不切实际或荒谬的回答。ChatGPT 和 Google Bard 给出错误答案的大多数问题都表明了正确的问题解决方法;然而,这两个人工智能模型都很难准确地执行简单的计算。在与健康科学相关的 MCQ 中,ChatGPT 似乎很难在几个合理的选项中辨别出正确答案。虽然这三种工具都能很好地处理论文问题,避免任何明显错误的回答(与其他问题类型不同),但还是注意到了一些细微的差异。ChatGPT 3.5 始终更紧密地遵循论文提示,提供直接和必要的回答,而 ChatGPT 4 在适应性方面表现出优于这两种模型的优势。ChatGPT4 捏造了参考文献,在回答来源提示时创建了不存在的作者和研究标题。虽然在教育中使用人工智能很有前景,但即使是最新和最先进的 ChatGPT 和 Google Bard 版本也无法准确回答所有问题。人类仍然需要大量的认知技能和人工智能能力的进一步发展。
主要关键词