摘要 — 近年来,人工智能 (AI) 极大地改变了人类活动的各个方面,包括文本创作。人工智能技术的进步使计算机能够生成与人类写作非常相似的文本,这引发了人们对错误信息、身份盗窃和安全漏洞的担忧。为了应对这些挑战,了解人工智能生成文本的潜在模式至关重要。本研究侧重于揭示这些模式,以建立区分人工智能生成文本和人类生成文本的道德准则。本研究通过阐明区分人类和机器生成文本的方法,为正在进行的人工智能生成内容讨论做出了贡献。该研究深入研究了音节数、单词长度、句子结构、功能词使用和标点符号比率等参数,以检测人工智能生成的文本。此外,该研究还整合了可解释人工智能 (xAI) 技术——LIME 和 SHAP——以增强机器学习模型预测的可解释性。该模型表现出色,准确率达到 93%。利用 xAI 技术,进一步揭示了 Herdan 的 C、MaaS 和 Simpson 指数等关键属性在分类过程中发挥了主导作用。
按照解释学的思路,我们提出了一种通过从给定文本中提取相关模式来进行风格表征的知识发现过程,重点是风格的句法维度。这个知识发现过程包括两个主要步骤,一个顺序模式挖掘步骤,然后应用一些兴趣度度量。特别是,提取给定长度的所有可能的句法模式被提出作为在探索性场景中提取有趣特征的一种特别有用的方法。显然,模式的激增和人类难以理解大量结果是这种方法的主要障碍。因此,我们在这种情况下使用兴趣度度量来处理和减少如此大量的模式,以识别最相关的模式。我们建议对三种提出的兴趣度测量方法进行实验评估并报告结果,每种方法都基于不同的理论语言学和统计背景。