论文评分和反馈是教育评估过程的基本组成部分。手动论文评估的最大挑战之一是它需要大量的时间和精力,这往往会导致不一致和延迟。此外,语言固有的复杂性和某些评分标准的主观性继续对一致性构成障碍。这项研究考察了三种先进的大型语言模型 (LLM) - Mistral-7B-Instruct、Llama-2-13b 和 Llama-2-13b-finetuned - 在论文评估自动化中的有效性。该研究根据六项基本熟练程度标准(包括衔接性、句法、词汇、措辞、语法和惯例)比较了这些模型在 Kaggle 的 1,500 篇议论文数据集上的表现。它采用四个统计指标进行评估:平均绝对误差 (MAE)、均方误差 (MSE)、均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE)。研究结果显示,不同评估标准下的模型性能存在显著差异。Mistral-7B-Instruct 在大多数类别中的表现始终优于 Llama 模型。Llama-2-13B 微调模型在多个标准上都比其基础模型有显著改进,这表明微调基础模型可以用于论文评估等特定任务。研究结果对教育和技术领域都具有重要意义,因为他们可以利用这些进步来提高大规模论文评估的效率。未来的工作可以集中在通过微调更广泛的 Transformer 模型来扩大分析范围,以更好地了解各种架构如何影响自动论文评估的性能。
主要关键词