我们在烧烤评估中评估了GPT-4O,O1和GPT-4.5 [1]。此评估评估已知的社会偏见是否覆盖了模型产生正确答案的能力。在模棱两可的上下文中 - 正确答案是“未知”的,因为在提示中不足的信息(或明确的问题)可以清楚地获得答案,但提供了偏见的混杂因素 - GPT-4.5与GPT-4O相似。我们历史上已经报道了p(不是stereotype |未知),但是在这种情况下,它在解释性能方面的描述能力很小,因为所有提供的模型在模棱两可的问题数据集中的表现相对较好。O1通过在明确的问题上更频繁地提供正确的无偏见答案来胜过GPT-4O和GPT-4.5。