我们描述了一类称为决策导向对话的任务,在这些任务中,大型语言模型 (LM) 等 AI 助手必须通过自然语言与一个或多个人类合作,以帮助他们做出复杂的决策。我们将用户每天面临的决策的三个领域形式化:(1)选择会议论文的审稿人任务,(2)规划某个城市的多步骤行程,(3)为朋友团体协商旅行计划。在每种情况下,AI 助手和用户都具有不同的能力,他们必须将这些能力结合起来才能做出最佳决策:助手可以访问和处理大量信息,而用户则具有系统外部的偏好和约束。对于每个任务,我们构建了一个对话环境,代理会根据他们做出的最终决策的质量获得奖励。我们在自我对弈和与人类合作中对 LM 进行了评估,发现它们与人类助手相比存在不足,尽管对话时间较长,但获得的奖励要低得多。我们强调了模型在决策导向对话中面临的许多挑战,从目标导向行为到推理和优化,并将我们的环境发布为未来工作的试验台。