摘要本文旨在概述我们的方法,以区分人类生成的文本和具有模型融合方法的生成AI模型。我们的方法包括三个步骤:首先,我们将PAN的竞争数据集扩展到Clef 2024的竞争数据集,其中包括来自著名的数据科学和机器学习竞赛平台Kaggle的外部数据集,并应用Levenshtein距离算法算法纠正拼写错误的单词。然后,基于共享主题并将培训,验证和测试数据集形成文本对的数据集。第二,我们训练一个微调的BERT作为基本模型和使用R-Drop方法的BERT来减轻过度拟合问题。最后,这两个模型是使用合奏学习技术和投票策略组合的。我们的实验结果表明,融合模型的ROC-AUC度量为0.932,比基线模型Fast-DetectGpt(Mistral)提高了5.6%。
主要关键词