已经开发了各种工具和实践来支持从业者识别、评估和减轻人工智能系统造成的公平相关危害。然而,先前的研究强调了这些工具和实践的预期设计与它们在特定环境中的使用之间的差距,包括组织因素在塑造公平工作中所起的作用所造成的差距。在本文中,我们针对一种这样的实践调查了这些差距:人工智能系统的分类评估,旨在揭示人口群体之间的绩效差异。通过与来自三家科技公司的十个团队的三十三名人工智能从业者进行半结构化访谈和结构化研讨会,我们确定了从业者在设计分类评估时的过程、挑战和支持需求。我们发现,从业者在选择绩效指标、确定最相关的直接利益相关者和人口统计群体以及收集用于进行分类评估的数据集时面临挑战。更普遍地说,我们发现对公平工作的影响源于缺乏与直接利益相关者或领域专家的接触、优先考虑客户而不是边缘群体的业务要求以及大规模部署人工智能系统的动力。