详细内容或原文请订阅后点击阅览
使验证 AI 模型的响应变得更容易
通过允许用户清楚地看到大型语言模型引用的数据,此工具加快了手动验证速度,以帮助用户发现 AI 错误。
来源:MIT新闻 - 人工智能尽管具有令人印象深刻的功能,但大型语言模型远非完美。这些人工智能模型有时会通过响应查询而产生错误或不支持的信息来“幻觉”。
由于这个幻觉问题,LLM的回答经常通过人类事实检查器来验证,尤其是在将模型部署在医疗保健或金融等高风险环境中的情况下。但是,验证过程通常要求人们阅读模型引用的长文档,这是一项如此繁重且容易出错的任务,因此可能会阻止某些用户首先部署生成的AI模型。
生成AI模型为了帮助人类验证者,麻省理工学院的研究人员创建了一个用户友好的系统,使人们能够更快地验证LLM的响应。使用此工具(称为Symgen),LLM会生成带有引用的响应,该响应直接指向源文档中的位置,例如数据库中的给定单元。
Symgen用户悬停在其文本响应的突出显示部分中,以查看用于生成该特定单词或短语的模型。同时,毫无公示的部分显示了用户需要额外注意的用户来检查和验证。
“我们使人们能够选择性地专注于他们需要更担心的文本部分。最后,Symgen可以使人们对模型的响应有更高的信心,因为他们可以轻松地仔细观察以确保信息得到验证。
Symgen上的论文通过用户研究,沉和他的合作者发现,与手动程序相比,Symgen加速了验证时间约20%。通过使人类验证模型产出的速度更快,更容易,Symgen可以帮助人们确定在各种现实情况下部署的LLMS中的错误,从生成临床笔记到总结金融市场报告。