摘要 受人工智能在文本生成中日益重要的作用以及生成工具的潜在滥用的推动,本研究调查了区分人工智能生成的文本和人类创作内容的关键特征。我们制作了一个人工智能生成的 2,100 篇研究论文摘要的语料库,以比较人类和人工智能生成的文本之间的正式语言学和文体学特征,例如困惑度、语法、n-gram 分布和功能词频率。主要发现表明,人类撰写的摘要往往表现出更高的困惑度、更大的语法错误和更多样化的 n-gram 分布。为了区分这两种类型的文本,我们采用了各种机器学习算法,我们的随机森林实现在看不见的数据上实现了 0.986 的精度。值得注意的是,特征重要性分析表明,困惑度、语法和 n-gram 分布对人工智能检测分类具有很大的影响。我们的研究为日益重要的人工智能作者归属领域提供了对人工智能生成文本的辨别特征的细致研究。