Loading...
机构名称:
¥ 194.0

论文评分和反馈是教育评估过程的基本组成部分。手动论文评估的最大挑战之一是它需要大量的时间和精力,这往往会导致不一致和延迟。此外,语言固有的复杂性和某些评分标准的主观性继续对一致性构成障碍。这项研究考察了三种先进的大型语言模型 (LLM) - Mistral-7B-Instruct、Llama-2-13b 和 Llama-2-13b-finetuned - 在论文评估自动化中的有效性。该研究根据六项基本熟练程度标准(包括衔接性、句法、词汇、措辞、语法和惯例)比较了这些模型在 Kaggle 的 1,500 篇议论文数据集上的表现。它采用四个统计指标进行评估:平均绝对误差 (MAE)、均方误差 (MSE)、均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE)。研究结果显示,不同评估标准下的模型性能存在显著差异。Mistral-7B-Instruct 在大多数类别中的表现始终优于 Llama 模型。Llama-2-13B 微调模型在多个标准上都比其基础模型有显著改进,这表明微调基础模型可以用于论文评估等特定任务。研究结果对教育和技术领域都具有重要意义,因为他们可以利用这些进步来提高大规模论文评估的效率。未来的工作可以集中在通过微调更广泛的 Transformer 模型来扩大分析范围,以更好地了解各种架构如何影响自动论文评估的性能。

NCUR 2024 会议纪要

NCUR 2024 会议纪要PDF文件第1页

NCUR 2024 会议纪要PDF文件第2页

NCUR 2024 会议纪要PDF文件第3页

NCUR 2024 会议纪要PDF文件第4页

NCUR 2024 会议纪要PDF文件第5页

相关文件推荐

2024 年
¥60.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥5.0
2024 年
¥11.0
2024 年
¥6.0
2024 年
¥4.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥4.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥4.0
2024 年
¥1.0
2024 年
¥1.0