详细内容或原文请订阅后点击阅览
大型语言模型的行为并不像人类,尽管我们可能期望它们会这样做
一项新研究表明,人们对 LLM 的信念在模型的性能中起着重要作用,并且对于模型的部署方式也很重要。
来源:MIT新闻 - 人工智能大型语言模型 (LLM) 如此强大的原因之一是它们可以应用于各种任务。可以帮助研究生起草电子邮件的机器学习模型也可以帮助临床医生诊断癌症。
然而,这些模型的广泛适用性也使得它们难以系统地进行评估。不可能创建一个基准数据集来测试模型对每种类型的问题。
在一篇新论文中,麻省理工学院的研究人员采用了不同的方法。他们认为,由于人类决定何时部署大型语言模型,因此评估模型需要了解人们如何形成对其能力的信念。
新论文例如,研究生必须决定该模型是否有助于起草特定的电子邮件,而临床医生必须确定哪些病例最适合参考该模型。
基于这一想法,研究人员创建了一个框架,根据 LLM 与人类对其在某项任务上的表现的信念的一致性来评估 LLM。
他们引入了人类泛化功能——一种模型,描述人们在与 LLM 互动后如何更新对 LLM 能力的信念。然后,他们评估 LLM 与这种人类泛化功能的一致性。
他们的结果表明,当模型与人类泛化功能不一致时,用户可能会对在哪里部署它过于自信或不自信,这可能会导致模型意外失败。此外,由于这种不一致,在高风险情况下,更强大的模型往往比较小的模型表现更差。
Rambachan 与论文的主要作者、哈佛大学博士后 Keyon Vafa 和麻省理工学院电气工程与计算机科学系和经济学系教授、LIDS 成员 Sendhil Mullainathan 一起撰写了这篇文章。该研究将在国际机器学习会议上发表。
人类泛化