详细内容或原文请订阅后点击阅览
教人工智能模型说“我不确定”
一种新的训练方法在不牺牲性能的情况下提高了人工智能置信度估计的可靠性,解决了推理模型中产生幻觉的根本原因。
来源:MIT新闻 - 人工智能信心是有说服力的。在人工智能系统中,它常常会产生误导。
当今最有能力的推理模型与房间里最响亮的声音有一个共同的特征:它们以同样不可动摇的确定性给出每个答案,无论它们是正确的还是猜测的。麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员现已将这种过度自信归因于这些模型训练方式中的一个特定缺陷,并开发了一种方法来修复它而不放弃任何准确性。
该技术称为 RLCR(带有校准奖励的强化学习),它训练语言模型以生成经过校准的置信度估计及其答案。除了给出答案之外,该模型还会考虑该答案的不确定性,并输出置信度分数。在跨多个基准的实验中,RLCR 将校准误差降低了高达 90%,同时保持或提高了准确性,无论是在模型训练的任务上还是在从未见过的全新任务上。这项工作将于本月晚些时候在国际学习表征会议上展示。
这个问题的根源出人意料地简单。最近人工智能推理突破背后的强化学习 (RL) 方法,包括 OpenAI o1 等系统中使用的训练方法、获得正确答案的奖励模型以及错误答案的惩罚模型。两者之间没有什么。通过仔细推理得出正确答案的模型会获得与偶然猜对的模型相同的奖励。随着时间的推移,这会训练模型自信地回答他们提出的每一个问题,无论他们有强有力的证据还是有效地掷硬币。
麻省理工学院博士生、该论文的共同主要作者 Mehul Damani 表示:“标准训练方法简单而强大,但它不会让模型有动力表达不确定性或说‘我不知道’。因此,模型自然会在不确定时学会猜测。”
