摘要 由于大多数机器学习 (ML) 模型都是孤立地进行训练和评估的,因此我们对它们对现实世界中人类决策的影响知之甚少。我们的工作研究了这些部署的人机交互系统中如何产生有效的协作,特别是在不仅准确性而且偏差指标至关重要的任务上。我们训练了三种现有的语言模型(随机、词袋和最先进的深度神经网络),并在有和没有人类合作者的情况下在文本分类任务上评估它们的表现。我们的初步研究结果表明,虽然高精度 ML 提高了团队准确性,但它对偏差的影响似乎是特定于模型的,即使没有界面变化也是如此。我们将这些发现建立在认知和 HCI 文献的基础上,并提出了进一步发掘这种互动复杂性的方向。
主要关键词