包括 ChatGPT、Gemini 和 Claude 在内的生成式 AI 模型在加强 K-12 教育方面发挥着越来越重要的作用,为各个学科提供支持。这些模型为人文学科提示提供示例答案,解决数学方程式并集思广益提出新颖的想法。尽管它们具有教育价值,但人们担心它们可能会误导学生在完成作业、评估或研究论文时直接从 AI 中抄袭答案。当前的检测器(例如 GPT-Zero)难以识别经过修改的 AI 生成的文本,并且对于以英语为第二语言的学习者而言,其可靠性会降低。本研究调查了在高风险写作评估中使用生成式 AI 来检测学术作弊行为。经典机器学习模型(包括逻辑回归、XGBoost 和支持向量机)用于区分 AI 生成的论文和学生撰写的论文。此外,我们还研究了包括 BERT、RoBERTa 和 Electra 在内的大型语言模型,并将其与传统机器学习模型进行了比较。分析重点关注 ASAP Kaggle 竞赛中的提示 1。为了评估各种检测方法和生成式 AI 模型的有效性,我们包括 ChatGPT、Claude 和 Gemini 的基本版本、专业版本和最新版本。此外,我们还研究了 GPT-Humanizer 和 QuillBot 等释义工具的影响,并介绍了一种使用同义词信息检测人性化 AI 文本的新方法。此外,我们还探讨了数据集大小与模型性能之间的关系,以便为未来研究中的数据收集提供参考。
主要关键词