详细内容或原文请订阅后点击阅览
独特的数学快捷方式语言模型用于预测动态场景
语言模型遵循使用巧妙的算术而不是顺序跟踪的改变情况。通过控制这些方法何时使用,工程师可以改善系统的功能。
来源:MIT新闻 - 人工智能假设您正在阅读一个故事,或者在玩国际象棋游戏。您可能没有注意到,但是每一步都没有注意到您的思想一直在跟踪情况(或“世界状态”)的变化。您可以将其想象为一系列事件列表,我们用来更新对接下来会发生的事情的预测。诸如ChatGpt之类的语言模型还会在完成代码块或预期您下一步写的内容时跟踪他们自己的“思维”中的更改。他们通常会使用变压器进行有根据的猜测 - 内部体系结构可以帮助模型理解顺序数据 - 但是由于思维模式有缺陷,系统有时是不正确的。识别和调整这些基本机制有助于语言模型变得更加可靠的预测者,尤其是在预测天气和金融市场等更具动态的任务中。但是,这些AI系统过程是否像我们一样开发情况?麻省理工学院计算机科学和人工智能实验室(CSAIL)和电气工程和计算机科学系的研究人员的一份新论文表明,这些模型相反,在顺序的每个渐进步骤之间使用巧妙的数学快捷方式,最终做出了合理的预测。团队通过在语言模型的引擎盖下进行观察,评估他们能够跟踪迅速改变位置的物体的仔细跟踪。他们的发现表明,工程师可以控制语言模型何时使用特定的解决方法来提高系统的预测能力。
纸 外壳游戏 通过镜头他们首先使用了一种称为“探测”的方法,该方法显示了哪些信息通过AI系统流动。想象一下,您可以研究模型的大脑,以在特定时刻看到其思想 - 以类似的方式,该技术映射了系统中关于数字最终布置的中期预测。