“ Marta在哪里?”:我们如何从AI推理中删除不确定性

用正式验证克服LLM限制的入门。帖子“在哪里?”:我们如何从AI推理中删除不确定性,首先出现在数据科学方面。

来源:走向数据科学

AI模型赢得数学比赛的“随机鹦鹉”?虽然毫无疑问,LLM是真正的博士学位思想家,但在复杂的推理情况下的进展是不可否认的。

随机鹦鹉 获胜 数学 竞赛 广告

一个流行的技巧是将LLM生成功能与正式验证符(即专用软件)混合和匹配,即确切地说明,该软件可为某些问题提供保证的解决方案。关键见解是LLM可能擅长将混乱的,模棱两可的要求转化为精确的形式规格。正式的验证者擅长寻找满足这些规格的解决方案。通过将它们结合在一起,我们将获得一个可以理解您想要的系统,并确保它准确地提供的系统:最近,AWS使用此技巧来实时聊天来构建“护栏”。

流行技巧 aws正在使用此技巧

这在实践中如何起作用?不幸的是,这些基本动力学的解释通常发生在更大,复杂的环境中,例如增强学习或数学证明。今天,我们将使用Alloy(一种轻巧的语言)来证明这种混合方法,即使对于初学者来说也是如此。我们将解决一个更加相关的挑战,而不是通常的数学论文和难以理解的基准测试,灵感来自每周的填字游戏:

数学证明 难以抓紧 基准
原始难题:5辆汽车(1-5),5个女孩(A-E),5个名字和4个陈述:Marta是谁,她的车是什么? [首先在LinkedIn帖子中讨论了“ Settimana Enigmistica”的原始难题;然后对图像进行了修改以及作者翻译。正如我们在下面的提示中显示的那样,显然可以对情况进行纯粹的文本表示。 ]
谁是Marta,她的车是什么 此LinkedIn Post 此开源回复

ais和人类自己挣扎

原始图片 模型错误地假设C穿着裤子 Marta是女孩A,她的车是5 you 合金