大型语言模型的最新提高了世代的质量,促使研究刺激了机器生成的文本。这样的工作经常呈现出高性能的探测器。但是,人类和机器可以以不同的样式和域的形式产生文本,但是这种对机器生成的文本检测系统的性能影响仍然不清楚。在本文中,我们通过评估具有不同写作样式的文本来审核用于检测机器生成的文本的分类性能。我们发现,分类器对文本复杂性的风格变化和差异具有很高的意义,在某些情况下,分类器完全降低了随机分类器。我们进一步发现,在复杂文本中具有高性能的同时易于读取的文本,因此逐渐易于分类,这导致人们对检测系统的可靠性感到担忧。我们建议将来的工作涉及风格上的因素,并阅读人写和机器生成的文本的难度水平。