详细内容或原文请订阅后点击阅览
提示保真度:衡量 AI 代理实际执行了多少意图
您的 AI 代理的输出中有多少是真实数据,而不是自信的猜测?帖子提示保真度:测量 AI 代理实际执行的意图的数量首先出现在《走向数据科学》上。
来源:走向数据科学Spotify 刚刚发布了测试版“提示播放列表”。我建立了一些播放列表,发现代理背后的LLM试图满足你的要求,但失败了,因为它知道得不够,但又不承认。我的意思是这样的:我的第一个播放列表提示是“摇滚小调歌曲”。播放列表很快就创建好了。然后我添加了警告“任何歌曲的播放次数都不应超过 1000 万次”。人工智能代理抛出一个错误,解释说它无法访问总播放次数。它还令人惊讶地解释说,它无法访问其他一些东西,例如音乐键,尽管它声称在播放列表的构建中使用了它。该代理利用其法学硕士对某首歌曲的音调的了解,并根据其记忆添加歌曲。仔细检查播放列表后发现,有几首歌曲根本不是小调的。当然,法学硕士产生了这些信息的幻觉,并自豪地将其显示为与播放列表提示的有效匹配。
显然,播放列表创建者是一种风险相当低的 AI 代理功能。它制作的播放列表很棒!问题是它实际上只使用了大约 25% 的约束作为经过验证的输入。剩下的 75% 的限制只是 LLM 猜测的,系统从未告诉我,直到我深入研究。这不是 Spotify 的问题;而是 Spotify 的问题。这是每个代理人的问题。
三个命题
为了更广泛地展示即时保真度的概念,我必须提出以下三个主张:
这不是质量问题,而是结构问题。更好的模型不会提高上限。更好的模型确实能够更好地推断和满足用户的其余需求。然而,只有添加更多经过验证的数据字段才会提高这个上限,即使如此,每个新字段的回报也会递减,因为字段是相关的(类型和能量不是独立的,发布日期和节奏趋势不是独立的)。语言可以表达的内容和数据可以验证的内容之间的差距是永久性的。
