世界模型可以开启人工智能的下一次革命

为什么当今的人工智能系统难以保持一致性,以及新兴世界模型如何旨在让机器稳定地掌握空间和时间

来源:科学美国人

您可能已经看到人工智能系统偏离了轨道。你索要一段狗的视频,当狗跑到双人沙发后面时,它的项圈就消失了。然后,当镜头向后摇动时,双人沙发就变成了沙发。

部分问题在于许多人工智能模型的预测性质。就像为 ChatGPT 提供支持的模型一样,这些模型经过训练来预测文本,视频生成模型可以预测统计上最可能接下来查看的内容。在这两种情况下,人工智能都没有一个明确定义的世界模型,它会不断更新以做出更明智的决策。

但随着许多人工智能领域的研究人员致力于创建“世界模型”,这种情况开始发生变化,其影响超出了视频生成和聊天机器人的使用,扩展到增强现实、机器人、自动驾驶汽车,甚至类人智能或通用人工智能 (AGI)。

关于支持科学新闻

如果您喜欢这篇文章,请考虑通过订阅来支持我们屡获殊荣的新闻事业。通过购买订阅,您将有助于确保有关塑造当今世界的发现和想法的影响力故事的未来。

理解世界建模的一种简单方法是通过四维或 4D 模型(三维加时间)。为此,让我们回想一下 2012 年,当时《泰坦尼克号》在影院上映 15 年后,被煞费苦心地转换为立体 3D。如果你要冻结任何一帧,你就会对船上的人物和物体之间的距离有一个印象。但如果莱昂纳多·迪卡普里奥背对镜头,你就无法绕过他看他的脸。电影院的 3D 幻觉是通过立体视觉来实现的——两个略有不同的图像通常快速交替投影,一个用于左眼,一个用于右眼。电影院中的每个人都看到同一对图像,因此看到相似的视角。