对人机团队的研究通常为专家提供单一标签,这忽略了模型推荐中的不确定性。共形预测 (CP) 是一个成熟的研究方向,专注于构建一个理论上有依据的、经过校准的预测集,该预测集可能包含多个标签。我们探索此类预测集如何影响人机团队中的专家决策。我们对人类受试者的评估发现,集值预测对专家有积极影响。然而,我们注意到 CP 提供的预测集可能非常大,这导致 AI 助手无用。为了缓解这种情况,我们引入了 D-CP,一种对某些示例执行 CP 并听从专家的方法。我们证明 D-CP 可以减少非延迟示例的预测集大小。我们展示了 D-CP 在定量和人类受试者实验 (n=120) 中的表现。我们的结果表明,CP 预测集比单独显示 top-1 预测更能提高人类-AI 团队的表现,并且专家发现 D-CP 预测集比 CP 预测集更有用。