LLM 是否能很好地估计指令遵循中的不确定性?

这篇论文被 NeurIPS 2024 的安全生成 AI 研讨会 (SGAIW) 接受。大型语言模型 (LLM) 可以成为各个领域的有价值的个人 AI 代理,前提是它们能够精确遵循用户指令。然而,最近的研究表明 LLM 的指令遵循能力存在很大局限性,这引发了人们对其在高风险应用中的可靠性的担忧。准确评估 LLM 在遵守指示方面的不确定性对于降低部署风险至关重要。据我们所知,我们首次系统地评估了不确定性……

来源:Apple机器学习研究

这篇论文被 NeurIPS 2024 的安全生成 AI 研讨会 (SGAIW) 接受。

大型语言模型 (LLM) 可以成为各个领域的有价值的个人 AI 代理,前提是它们能够精确遵循用户指令。然而,最近的研究表明 LLM 的指令遵循能力存在很大局限性,这引发了人们对其在高风险应用中的可靠性的担忧。准确评估 LLM 在遵守指令方面的不确定性对于降低部署风险至关重要。据我们所知,我们首次系统地评估了 LLM 在指令遵循方面的不确定性估计能力。我们的研究确定了现有指令遵循基准的主要挑战,其中多种因素与源自指令遵循的不确定性纠缠在一起,使方法和模型之间的隔离和比较变得复杂。为了解决这些问题,我们引入了一个受控评估设置,其中包含两个基准版本的数据,从而能够全面比较各种条件下的不确定性估计方法。我们的研究结果表明,现有的不确定性方法很难解决,尤其是当模型在遵循指令时出现细微错误时。虽然内部模型状态提供了一些改进,但它们在更复杂的场景中仍然不足。我们从受控评估设置中获得的见解为理解 LLM 的局限性和在遵循指令任务中不确定性估计的潜力提供了关键的帮助,为更值得信赖的 AI 代理铺平了道路。