自然语言处理 (NLP) 系统通常用于对抗性任务,例如检测垃圾邮件、辱骂、仇恨言论和虚假新闻。正确评估此类系统需要动态评估来搜索模型中的弱点,而不是静态测试集。先前的工作已经在手动和自动生成的示例上评估了此类模型,但这两种方法都有局限性:手动构建的示例创建起来很耗时,并且受到创建者的想象力和直觉的限制,而自动构建的示例通常不合语法或标签不一致。我们建议将人类和人工智能的专业知识结合起来生成对抗性示例,受益于人类在语言方面的专业知识和自动攻击更快、更彻底地探测目标系统的能力。我们提出了一个促进攻击构建的系统,将人类判断与自动攻击相结合,以更有效地创建更好的攻击。我们自己实验的初步结果表明,人机混合攻击比纯人类或纯人工智能攻击更有效。验证这些假设的完整用户研究仍有待完成。