作业描述 课程评估将基于两次考试和三个项目作业。 考试。课程考试将基于课堂上涵盖的机器学习概念(参见课程表)。考试中不包含任何编程问题。考试将包括一些多项选择题或简答题,以及一些计算题,学生需要进行一些计算才能得出答案。考试不会累积。 项目。三个项目将由课程讲师定义,数据将由课程讲师提供。每个项目都将基于课堂上涵盖的概念(项目 1:构建和评估分类器、项目 2:无监督学习、项目 3:神经网络)。对于每个项目,学生都需要展示一个演示并提交他们的代码存储库。代码应以可轻松下载和运行的形式上传到软件存储库(如 GitHub)。
人工智能工具在教育领域发展迅速,这凸显了对其性能进行全面和严格评估的迫切需要。为此,本研究测试了 ChatGPT 和 Google Bard 在回答工程和卫生领域一系列问题方面的有效性。所研究的问题类型包括判断题、多项选择题 (MCQ)、匹配题、简答题、论文题和计算题。研究结果表明,ChatGPT 4 在创造性解决问题和各种问题类型的准确性方面都超过了 ChatGPT 3.5 和 Google Bard。ChatGPT 4 在判断题中的准确率最高,达到 97.5%,而在计算题中的准确率最低,为 82.5%。提示 ChatGPT 和 Google Bard 提供简短的回答显然可以防止它们产生幻觉,从而给出不切实际或荒谬的回答。ChatGPT 和 Google Bard 给出错误答案的大多数问题都表明了正确的问题解决方法;然而,这两个人工智能模型都很难准确地执行简单的计算。在与健康科学相关的 MCQ 中,ChatGPT 似乎很难在几个合理的选项中辨别出正确答案。虽然这三种工具都能很好地处理论文问题,避免任何明显错误的回答(与其他问题类型不同),但还是注意到了一些细微的差异。ChatGPT 3.5 始终更紧密地遵循论文提示,提供直接和必要的回答,而 ChatGPT 4 在适应性方面表现出优于这两种模型的优势。ChatGPT4 捏造了参考文献,在回答来源提示时创建了不存在的作者和研究标题。虽然在教育中使用人工智能很有前景,但即使是最新和最先进的 ChatGPT 和 Google Bard 版本也无法准确回答所有问题。人类仍然需要大量的认知技能和人工智能能力的进一步发展。